推荐 序 一 


Chatbots are redefining “self-service” for the customers of thousands of companies around the world because 
they make it possible for people to use their own words to explain what they want to do or what question they want 
answered.Growth in their use will rely on constant improvement in their ability to understand and respond to what 
people want, which means that their future relies on developers who are well versed in what chatbots are capable 


of doing and, more importantly, what they ought to be doing. 


As you will learn by reading this excellent resource, advances in Natural Language Understanding make it 
possible for a computer system to capture what a person says or types into a smartphone, understand the 
individual’ s intent and provide the right answers or recommended actions with great consistency.Next will come 


the ability to carry on longer conversations, covering several topics or “intents” in the same session. 


As the authors of this excellent book so ably point out, it all starts with rapid recognition of the purpose of each 
conversation and the intent of the individual that initiated.There is a lot of math and data crunching involved, but 
the real difference is the human factor.The most loved chatbots use their training data and analytical engines to 
anticipate the purpose of a contact.They rely on human input to create conversation models that are pleasant, as 
well as effective.And they are the product of an ongoing feedback loop that enables subject matter experts to step 
in to improve answers when necessary and determine the best course to take when the automated agent finds itself 


in unfamiliar territory. 


As chatbots become more efficient, we expect a majority of individuals to prefer to carry on business with them 
rather than people.As long as the chatbot has been provided with information from the proper knowledge bases, is 
trained on appropriate conversation models and continues to refine its answers based on supervised machine 
learning that makes it possible for them to continuously improve responses based on understanding new words and 


terminology. 


This book is a fantastic starting point for people to learn what they need to build the best chatbots possible.You 
will have a chance to understand the basic math and statistics that make natural language understanding 
possible.But that is just a starting point.You will learn how to build dialogs between people and chatbots that are 
tailored to specific industries and use cases.And you will also become familiar with ways for your chatbots to 
recognize and accommodate a person’ s emotional state or to engage in a multi-turn conversation that addresses 


multiple topics or objectives. 


There is a long way to go for chatbots to fulfill the challenge of carrying on human-like conversations for 
multiple use cases.There is no better book for developers, like yourself, to help chatbots fulfill on the promise of 


true Conversational Commerce. 


Dan Miller founded Opus Research in 1985 and has made the company a global provider of market intelligence 
and analysis of software and services that support multimodal customer care and improved customer 
experiences.Opus Research is focused on “Conversational Commerce” , the merging of intelligent assistant 


technologies, conversational intelligence, intelligent authentication, enterprise collaboration and digital commerce. 
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Dan Miller Lead Analyst/Founder Opus Research 


http://about.me/DanMillerOpus 
www.opusresearch.net 


www.iaconference.net 


Eth 


My acquaintance with the authors of this book can be summed up as:3 workshops and 1 Karaoke night. 


| first met them in 2016 when | was invited to give a talk on “Imagination&Creativity” .VIPShop had just started 
assembling a chatbot team, in a bold attempt to lift their customer experience to a new level with the assistance of 


state-of-the-art NLP/AI technology. 


The following year we met twice, and the workshop topics show how much progress the team had made:we 
talked about “Performance Optimization” , and “FAQs and Chatbots:Content Management Tips and 
Tricks” .Clearly their creative and imaginative work had paid off, and they were now dealing with the grim reality of 


operating an actual chatbot ecosystem in the real world. 


The project was a great success, and the chatbots of VIPShop are doing a better job than ever, answering 
billions of customer questions, ensuring a great user experience and offloading a mountain of work from the 
overtaxed live agent call centers.And so, my latest meeting with the authors was a celebration, when they invited 


me to join them in a Karaoke bar in Beijing at the end of 2018 for a night of drinks and singing. 


It was then that they told me about their after-hours project of writing “Chatbots in Action” .They haven’ t just 
built a world-class product, they have turned their experience into a new textbook for the field, sharing their 


knowledge with the next generation of chatbot craftsmen. 


| surely cannot take credit for the achievements of the team.In fact, now that I’ m perusing the outline of the 
book, in the summer of 2019, | realize the authors have gained a profound understanding of the chatbot world in 


all its dimensions, and | could only wish | had a book such as this to guide me as | entered the field. 


| sincerely congratulate the authors with the fruits of their labor, | commend them for their creativity, and | 


warmly recommend this book to anyone interested in the world of Chatbot development. 


Sincerely, jor 


Jan van Sas 


Jan van Sas has over 30 years of industry experience as a NLP/AI expert working for and consulting to 


multinationals as well as start-ups 


From 2012 to 2017 as Oracle Director of Natural Language Solutions, he managed Oracle’ s Virtual 


Assistant/Chatbot development teams across the world 


Jan lives in Karlsruhe, Germany and is Al Professor at Karel de Grote University College in Antwerp, Belgium 


为 什么 要 写 这 本 书 


2015 年 我 跳出 一 家 传统 的 软件 公司 ， 重 新 做 回 文本 挖掘 的 相关 工作 。 那 个 时 候 心 中 的 执 念 是 想 把 自己 读 硕 士 时 的 研究 方向 
继续 下 去 。 跳 出 人 生 的 舒适 区 ， 友 现 周围 的 扩 术 真 的 是 日 新 月 异 ， 从 而 感 哎 目 己 的 洛 伍 和 脱节 。 于 是 开始 从 最 简单 的 分 词 做 起 ， 
职业 生涯 起 起 伏 伏 ， 在 那 段 岁 月 中 依然 保持 着 心中 的 执 念 和 对 求知 的 渴望 。 有 至 的 是 ， 在 这 个 过 程 中 结识 了 一 些 业内 的 好 友 ,在 
他 们 的 不 断 指引 下 ， 感 党 每 天 都 小 有 进步 。 在 学 习 的 过 程 中 ， 我 正好 也 赶 上 了 目 然 语言 处 理 拉 术 的 浪潮 ， 在 Al 拉 术 深 入 人 心 的 阶 
段 入 行 实 是 我 人 生 的 一 大 于 事 ! 


对 话 系 统 是 自然 语言 处 理 (NLP) 领域 的 一 颗 璀璨 明珠 ， 它 源 于 专家 库 系统 。 从 扩 术 的 角度 讲 ， 它 集结 了 目 然 语 言 理解 
(NLU) 技术 和 目 然 语 言 生 成 (NLG) 技术 ， 而 目 然 语言 处 理 又 恰恰 是 人 工 智能 (Al) 最 难 破解 的 领 敬 。 融 是 企 那 段 时 间 里 ， 
我 晴 友 了 要 做 对 话 系统 的 想法 。 万 事 开头 难 ， 人 在 这 个 过 程 中 翻阅 了 不 少 参考 资料 ， 但 是 友 现 一 个 问题 ， 市 场 上 专门 写 对 话 系统 的 
书 密 密 无 几 ， 介绍 目 然 语 言 处 理 的 专业 书籍 也 特别 少 。 所 以 只 能 翻 看 一 些 论文 ,但 论文 的 理论 性 很 强 ， 实 操 性 又 太 魏 ， 对 初学 者 
和 基础 注 弱 者 来 讲 很 不 友好 。 当 时 市 场 上 流行 的 目 然 语言 处 理 的 书籍 可 以 分 以 下 几 种 类 型 : 第 一 ， 经 典 的 教材 ， 如 守成 庆 老 师 的 
《统计 目 然 语言 处 理 》; 第 二 ， 经 典 实 操 教材 ， 如 《Python 目 然 语 言 处 理 》; 第 三 ， 经 典 的 翻译 教材 ， 如 《统计 目 然 语言 处 理 
基础 》。 而 讲解 中 文 目 然 语言 处 理 的 实 操 性 的 书籍 着 实 太 少 了 。 


2018 年 冬天 的 一 个 午后 ， 我 和 郭 师 光 几 个 人 一 起 吃饭 ， 茶 余 饭 后 聊 起 聊天 机 器 人 ， 大 家 有 很 多 共同 的 想法 。 在 目 然 语 言 处 
理 、 深 度 学 习 以 及 人 工 智 能 领域 ， 大 家 都 积 容 了 一 些 经 验 ， 所 以 我 就 提议 : 大 家 能 不 能 围绕 目 然 语言 处 理 和 对 话 系 统 写 一 本 书 ， 
写 写 大 家 对 自然 语言 处 理 技术 以 及 对 话 系统 的 认识 ， 帮 有 初学 者 归纳 总 结 一 些 在 中 文 文本 挖掘 方面 的 知识 点 和 成 功 经 验 。 我 的 提议 
很 快 得 到 了 社 燕 红 博 士 的 啊 应 和 支持 ， 融 这 样 ， 本 书 的 创作 团队 正式 成 立 。 不 过 ， 在 创作 过 程 中 也 遇 到 了 很 多 问题 。 对 话 系统 本 
身 要 求 技术 人 员 对 算法 和 工程 都 要 有 一 个 清晰 和 完整 的 认识 ， 而 且 需 要 有 很 强 的 工程 实践 能 力 。 我 在 书 中 这 部 分 的 讲解 过 程 中 提 
到 ， 在 不 同 公司 的 应 用 场景 和 数据 集 上 做 优化 瓯 会 诞生 不 同 的 对 话 系统 。 但 是 ， 对 话 系统 也 有 一 些 共同 的 部 分 ， 比 如 通用 的 目 然 
语言 处 理 方法 、 通 用 的 以 构 ， 以 及 针对 不 同业 务 场景 所 采用 的 相同 的 解决 方法 。 所 以 本 书目 人 在 帮助 读者 杭 理 相 天 知识 点 和 思考 问 
题 的 方式 。 许 多 个 不 眠 之 夜 的 奋 笔 疾 书 ， 许 多 个 节假日 的 思考 和 资料 的 查阅 ， 将 我 们 的 分 享 像 涓 滑 细 流 ， 浇 灌 在 每 一 个 读者 心 
间 ， 我 想 我 们 的 这 些 努 力 束 是 最 大 的 价值 。 


读者 对 象 


. 自然 语言 处 理 入 门 者 和 爱好 者 


` 初中 级 自然 语言 处 理工 程 师 


» AI 技术 入 门 者 和 爱好 者 
- 开设 相关 课程 的 大 专 院 校 的 师 生 
如 何 阅 读本 书 
本 书 按 内 容 可 分 为 三 大 部 分 。 


第 一 部 分 (第 1 草 ) 为 基础 篇 ， 入 单 地 介绍 数学 和 统计 的 基本 相关 理论 ， 帮 助 读者 了 解 一 些 基础 背景 知识 ， 并 熟悉 一 些 基 础 
的 数学 理论 知识 。 


二 部 分 (第 2~9 草 ) 为 自然 语言 处 理 的 技术 篇 ， 着 重 讲 解 目 然 语言 处 理 的 模型 和 拉 术 。 它 们 是 构成 对 话 系 统 的 基础 。 一 些 
模型 可 以 用 在 目 然 语言 理解 模块 (NLU) 和 目 然 语 言 生成 模块 (NLG) 。 同 时 帮助 读者 整理 对 话 系 统 的 工程 和 架构 知识 。 


第 三 部 分 (第 10~12 草 ) 为 实例 篇 ， 通 过 对 三 个 对 话 系统 典型 案例 的 讲解 ， 让 读者 元 整 了 解 一 个 架构 、 设 计 和 实现 对 话 系统 
的 流程 。 
勘误 和 支持 


由 于 作者 的 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错 误 或 者 不 准确 的 地 方 ， 居 请 读者 批评 指正 。 你 可 以 将 书 中 的 错 


误 或 宝贵 意见 发 送 至 邮箱 yfc@hzbook.com， 期 待 能 够 得 到 你 们 的 真 执 反馈 。 
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Sl ”概率 统计 与 应 用 数学 的 基础 焙 识 


目 然 语言 处 理 是 机 器 学 习 应 用 的 一 个 分 支 ， 它 不但 涉及 目 然 语言 学 的 知识 ， 更 重要 的 是 还 天 系 到 很 多 应 用 数学 的 知识 ， 特 别 
是 概率 与 统计 的 一 些 基 础 类 识 ， 这 些 都 需要 熟练 掌握 。 


本 草 将 简要 介绍 概率 统计 和 应 用 数学 的 基础 知识 ， 这 更 有 利于 我 们 对 后 面 知识 点 的 掌握 。 已 经 对 本 草 所 述 内 容 有 了 解 的 读 
者 ， 可 以 将 本 章 作为 复习 ， 或 者 跳 过 本 章 阅 读 后 面 的 内 容 。 


1.1 概率 的 定义 
概率 的 定义 : 在 统计 学 里 ， 概 率 是 一 个 事件 将 要 发 生 的 可 能 性 的 一 种 测度 。 概 率 值 的 学 围 是 0~ 1，0 代 表 不 可 能 发 生 ，1 代 表 
确定 发 生 。 一 个 事件 发 生 的 概率 值 越 高 ， 它 会 上 发 生 的 可 能 性 就 越 大 。 


在 Kolmogorov 概 率 论 的 定义 里 ， 假 设 概率 值 P 为 某 个 事件 A 友 生 的 概率 ， 则 记 作 P (A). Rig (O, F, P) 为 一 个 测度 空 
BEP (QO) =1，9 是 样本 空间 ，F 表 示 事 件 空间 ， 那 么 一 定 会 满足 以 下 条 件 。 


Kolmogorov 公 理 1: 事件 的 概率 是 一 个 非 负 的 实数 ， 且 P (A) ERP (A) 20, VAEF. 
Kolmogorov 公 理 2: 样本 空间 集合 的 概率 值 为 1，P (O) =1。 


Kolmogorov 公 理 3: 任意 可 数 的 无 交集 的 事件 序列 A1，A2，.…，A 满 足 如 下 公式 .。 


P J A. —_ P(A. 
] 


| = 


通过 Kolmogorov 的 3 条 概率 公理 ， 可 以 得 出 以 下 3 条 有 用 的 推论 。 

推论 1: 空 集 的 概率 值 为 0, P (D) =0。 

证 明 : 通过 公理 1 和 3 可 以 得 到 : P (O) =P (JUA) =P (Ø) +P (Q) =1 
“.P (Ø) =1-P (Q) =0 

推论 2: 如 果 A 是 B 的 子 集 或 者 等 于 8， 那 么 A 的 概率 一 定 小 于 或 者 等 于 B 的 概率 。 
if ASB then P (A) <P (B) 


证 明 : :ASB 假设 CUA=B， 通 过 公理 3， 得 至 


= 
= 


P (B) =P (CUA) =P (C) +P (A) 


P (B) -P (A) =P (C) >0 


Z.P (A) <P (B) 


推论 3: 任意 事件 的 概率 值 都 是 在 0 到 1 之 间 单 调 递 增 的 。 


O<P (A) <1 

证 明 : 任意 事件 E 满 足 ， 人 SEESQO， 根 据 推论 2 可 得 ， 
P (Ø) <P (A) <P (Q) 

P (O) =0 P (Q) =1 


.0<P (A) <1 


1.2 条件 概 率 与 贝 叶 斯 公式 


古典 概率 公式 : 如 果 一 个 可 重复 的 实验 可 能 出 现 N 种 不 同 的 结果 ， 实 验 的 一 组 事件 为 {A1， …， 介 ， 那 么 所 有 结果 出 现 
的 可 能 性 是 相同 的 。 假 设 任 意 事 件 Aj 友 生 的 结果 有 NN 个 ， 则 事件 Aj 友 生 的 频率 为 Q (Aj) =N/M。 如 果 和 NN 趋向 于 无 务 大 ， 则 相对 
频率 Q (Aj) 无 限 接近 于 概率 P (Aj) ， 


lim | 


用 一 oo 


条 件 概率 : 在 已 知事 件 B 友 生 的 情况 下 ， 事 件 A 友 生 的 概率 我 们 称 为 条 件 概率 P (A | B) 。 


P(A |B) =P “4 P(B) >0 


P(AB) =P(B)P(A|B) =P(A)P(B|A) 


上 述 公 陈 的 一 般 形式 称 作 概率 的 乘法 规则 ， 下 陈 为 其 一 般 形 式 以 及 性 质 。 


P(4n…n4,) =P(A,) PCA; |4)P(4 144)…P|4， 


性 质 : 1) P (AlB) 20; 
2) P (Q\B) =1; 


3) 如 果 事 件 Ai 为 独立 不 相 容 的 : 


T 
P| XA |B} = > P(A, |B) 
i=] = 
MRA, ASP, N: 
P (A;, A;IB) =P (AilB) P (AijlB) 
全 概率 公式 : 假设 样本 空间 为 Q， 实 验 的 一 组 事件 为 {B1，B2，...，B}}， 事 件 两 两 相 斥 ， 
nn 
pNP. =D(iF]; L , J = | J 2, mes n) HUB, = (2 
z= 
则 B1，B2，..…，Bn 为 样本 空间 Q 的 一 个 划分 。 事 件 A 的 全 概率 公式 可 以 表示 为 : 
P(A) = P (4 N [U B, | | = y P(AB,) = Y P(B,)P(A |B,) 
i=! t=] t=] 
贝 叶 斯 公式 : 


_ P(B,)P(A|B,) — P(B,)P(A |B;) 


P(A o g 
“ Vy P(B,)P(A |B.) 


i= | 


P(B, | A) 


贝 叶 斯 决策 理论 (Bayesian decision theory) : 是 把 贝 叶 斯 公式 应 用 于 分 类 问题 的 基本 理论 之 一 。 如 果 一 个 分 类 问题 有 n 
个 类 别 ， 用 fi，i=1，2，...，n 表 示 任 意 一 个 类 别 。 特 征 x 是 一 个 m 维 的 向 量 ， 则 可 以 表示 为 [x1，x2，.…xm] '。 那 么 每 个 类 别 


的 先 验 概率 为 P (fi ) ， 各 个 类 别 的 条 件 概率 P (x | fi) 是 已 知 条 件 ， 利 用 贝 叶 斯 公式 可 得 后 验 概率 P (fi | x) : 


P(x 
P(f. |x) = 


f)P(,) 
¥ P(x APO) 


TI 二] 
贝 叶 斯 公式 的 目的 是 将 已 知 的 先 验 概率 转化 为 后 验 概率 。 但 在 分 类 决策 过 程 中 ， 可 以 尽量 得 到 错误 率 最 小 的 分 类 规则 ， 这 样 
的 规则 被 称 为 最 小 错误 率 的 贝 叶 斯 决策 。 


最 小 错误 率 的 贝 叶 斯 决策 规则 表现 为 : 


1) mg OLIA, 则 有 xsf 


2) pag? PU) = max POMP) 则 有 xef 


3) 假设 | (x) =P (x|f1) /P (xlf2) >f2/f1， 则 有 xEf1 


通过 利用 贝 叶 斯 公式 ， 可 以 判断 一 句 话 “鼠标 、 键 盘 、 显 示 器 都 是 计算 机 外 设 ” 属 于 IT 类 、 人 金融 类 、 还 是 体育 类 ， 如 表 1-1 
所 示 。 


表 1-1 IT、 体育、 金融 3 个 分 类 的 文本 训练 语 料 


文 本 分 类 
鼠标 ” 左 键 加 键盘 Delete 重新 启动 计算 机 IT 8 词 
运动 员 颁奖 典礼 在 体育 场 东南 侧 举行 体育 7 词 
KA 上 涨 fem 于 部 分 个 股 表现 优异 金融 8 in] 
运动 员 教练 员 在 比赛 开始 前 集体 A 体育 8 inl 
单 击 鼠标 右键 显示 计算 机 桌面 菜单 IT 7 词 
股市 ”看 空 部 分 个 股 出 现 PF 金融 5 词 
触摸 ”显示 各 代替 了 鼠标 键盘 IT 6 词 
期 贷 股市 债 市 都 是 金融 操作 平台 金融 7 in 
运动 员 开始 比赛 前 准备 活动 体育 6 词 


应 用 贝 叶 斯 定理 和 条 件 概率 可 以 做 简单 的 文本 分 类 。 


“P (x| IT) =P (和 鼠标 、 键 盘 、 显 示 器 都 是 计算 机 外 设 IT) 
=P (鼠标 | IT) P (键盘 |IT) P (显示 器 | IT) P (都 |IT) P (à | IT) P (计算 机 |IT) P (外 设 | IT) 


结果 如 表 1-2 所 示 。 


表 1-2 计算 单词 在 IT、 体 育 、 人 金融 3 个 分 类 上 加 1 平滑 的 条 件 概 率 


词语 P (词语 | 体育 ) (词语 | IT) (词语 | 金融 ) 
二 0+1 2+1 0+1 
BUR 7+8+6 8 +7 +6 8+6 +7 
: 0+1 2+1 0+1 
键盘 7+8+6 8 +7+6 8+0+7 
a 0+1 l +1 0+1 
显 不 售 74+8 +46 8 +7 +6 8 +6 +7 
都 0+1 0+1 l +1 
7+8 +6 8 +7 +6 8+6 +7 
5 0+1 0+1 l +1 
JE 
7+8 +6 8+7 +6 8+6 +7 
0+1 2+1 0+1 
计算 机 74+8+6 8+7+6 84647 
0+1 0+1 0+1 
was Se eer ee 
外 设 T4383 +6 8-47 +6 8+6+7 


根据 表 1-2 可 以 计算 得 到 : 


“. PCT | 鼠标， 键盘， 显示 器 都 是 计算 机 外 设 ) 


_P( 鼠 标 、 键 盘 、 显 示 器 都 是 计算 机 外 设 | IT) x PCIT) 
P( 鼠 标 、 键 盘 、 显 示 器 都 是 计算 机 外 设 ) 


_ 忆 ( 鼠 标 、 键 盘 、 显 示 器 都 是 计算 机 外 设 ) x 217 
同 理 可 计算 : PURA | 鼠标 、 键 盘 、 显 示 器 都 是 计算 机 外 设 ) 
JR 
也 (鼠标 、 键 盘 、 显 示 器 都 是 计算 机 外 设 ) x21 x3 
同 理 可 计算 : P( 金 融 | 鼠标 、 键 盘 、 显 示 器 都 是 计算 机 外 设 ) 
4 
PC RR. EA GLA SPREE LYM) x21 x3 


 P(f, | x) max PU, x) 


i= IT AEF 、 金 融 


“xell 


通过 贝 叶 斯 决策 得 到 : 鼠标 、 键 盘 、 显 示 器 都 是 计算 机 外 设 ， 属 于 上 类 。 


1.3 SGV Ste Sa MeN 


随机 变量 : 通常 用 一 个 变量 符号 X 来 表示 每 次 随机 试验 中 的 变量 值 ， 变 量 被 称 为 随机 变量 。 


De: 已 知 一 个 随机 变量 X， 它 的 值 域 为 小 于 等 于 x 的 事件 A 的 概率 立 数 ， 记 为 PIX<x， 则 随机 变量 X 的 分 布 浮 数 F (x) 


F (x) =P{X<x}, (-co<x<co) 
分 布 函 数 的 性 质 如 下 所 示 ， 
D 分 布 函数 的 极限 性 : Lim PG) =0, limk) E1, 


2) 分 布 国 数 的 单调 性 : x1<x2, …F (x1) <F (x2) ; 


UW 


) 分 布尔 数 的 区 间 表 示 : P{a<X<b}=F (b) -F (a) . 
离散 型 随机 有 变量: 如 果 随 机 变量 可 以 表现 为 有 限 个 可 列举 的 数值 : x1，x2，.…，Xn， 则 称 之 为 离散 型 随机 变量 。 
连续 形 随 机 变量 : 如 果 随机 变量 X 可 以 取 实 数 数 轴 上 的 某 个 区 间 内 的 任意 一 点 ， 则 称 之 为 连续 型 随机 变量 。 


慨 率 的 数学 期 望 : 期 望 (Expectation) 或 均值 (Mean) ， 指 的 是 每 次 试验 可 能 出 现 的 结果 的 概率 值 磁 以 它 每 次 结果 的 数 
值得 到 的 总 和 。 用 来 反映 样本 的 平均 取信 。 


AREEN EAE: 假设 离散 随机 变量 X={X1，X2，.…，Xn}， 它 的 概率 值 为 P(X1) , P (X2) ，…， P (Xp) ， 
则 它 的 期 望 为 E (X) : 


E(X) =X, P(X, ) +X,P(X,) > ， X,P(X,) 


E(X) = > X,P, 
k=] 


连续 型 随机 变量 的 数学 期 尾 : 如 果 连 续 型 随机 变量 X 的 密度 函数 力 f (x) ， 则 连续 型 随机 变量 X 的 期 望 值 E (X) 为 : 


概率 的 方差 : 随机 变量 (X-E (X) ) “的 数学 期 望 叫 作 随机 变量 X 的 方差 ， 方 差 是 用 来 描述 随机 变量 的 值 所 偏离 它 期 望 值 的 
程度 。 


D (X) =E ( (XE (X) ) J 
=E (X?) -B* (X) 


概率 的 标注 震 : 随机 变量 X 的 标注 差 是 方差 的 平方 根 ， 也 是 用 来 摘 述 变量 的 值 和 均值 之 间 离 散 程 度 的 一 个 数值 。 


o(X) =, 


期 性 和 广大 的 性 质 : 假设 C 为 常数 ，X，Y 是 独立 的 随机 变量 。 


1 


~~ 


E (CX) =CE (X) ; 


2) E (X+Y) =E (X) +E (Y) ; 
3) E (XY) =E (X) E (Y) ; 

4) D (CX) =C<D (X) ; 

5) D (XY) =D (X) D (Y) ; 
6) E (C) =C; 

7) D (C) =0; 


8) D (X) =E (X<) - (E (X) ) 4 


\ 


1.4 “概率 分 布 与 参数 估计 


忌 体 : 我 们 把 研究 对 象 的 整体 经 过 试验 所 可 能 出 现 结果 的 集合 称 为 总 体 。 
样本 : 从 研究 的 总 体 中 抽取 部 分 作为 研究 的 对 象 ， 称 为 总 体 的 样本 。 


参数 估计 : 利用 从 总 体 中 抽取 样本 的 方法 估计 得 到 总 体 分 布 中 未 类 参数 的 方法 ， 叫 作 参 数 估 计 。 一 般 来 说 它 分 为 点 估计 和 区 
间 佑 计 两 类 。 单 见 的 参数 估计 方法 有 : 起 估 计 方 法 、 最 小 二 乘 估计 方法 、 最 大 似 然 估计 方法 。 


最 小 二 乘 估计 方法 : 利用 一 元 线性 方程 拟 合 一 组 样本 Xi、Yi， 让 预测 值 2 和 观察 值 Y 残 差 si 的 平方 和 最 小 的 估计 方法 叫 作 最 小 


二 乘法 估计 。 估 计 的 参数 表示 为 : 


通过 利用 最 小 二 乘法 ， 找 出 如 表 1-3 所 示 的 测量 数据 的 一 元 回归 方程 。 


表 1-3 样本 Xi、Yi 的 数值 表 


pas | 4 | as | os [oss | 6 | 6s | Á 
‘ : ° 
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2. 73.5 4 445 5 5.5 6 65 7 
1 1 1 1 1 J a 


| 
> 9 
| 5.73 
| 5.82 
6.04 
| 6. 27 
6.47 


6.61 

P a 0. 0435 —Q. 2283 ,, 254. 81 0. 173 778 
Bah) wY- olon 
— 0. 2283 1. 3234 47.79 5.072 163 

二 项 分 布 : 假设 一 个 可 重复 的 实验 只 有 A 或 者 A 两 种 结果 发 生 ， 如 果 试 验 重复 n 次 ， 出 现 k 次 A 结 果 的 概率 为 : 
P(X =k) =CP (1 -P)"%; Ch=nt/(k! * (n-k)!) 

正 态 分 布 : 随机 变量 X 服 从 均值 为 hb， 且 方差 为 5 的 分 布 称 为 正 态 分 布 或 高 斯 分 布 ， 记 为 : 

X~N (p, 0°) 


概率 密度 函数 为 : 


| (x -p)* 


f(x) — — e 7 2 
o V2T 


FA1-15)50, DEAE SHANE, DARE TS HAAS. 
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图 1-1 EAD HR 


当 h=0，g=1 时 称 为 标准 正 态 分 布 ， 公 陈 简化 为 : 


(x) =— 
J 27 


最 大 似 然 估计 方法 : 假设 样本 是 Xi= 仪 1，X2，…，Xn}j， 未 知 的 估计 参数 为 6， 待 优化 的 目标 函数 为 f (X1, X2, -Xl 
6) 。 如 果 能 够 从 总 体 中 抽取 几 种 样本 的 组 合 ， 使 得 样本 组 合 的 概率 最 大 ， 那 么 参数 估计 问题 残 可 以 简单 地 转换 成 如 下 的 最 优化 


1) 假设 样本 Xi={ 仪 1，X2，…，Xn} 是 独立 同 分 布 的 ，L (X1，X2，…，Xnl6) 为 包含 估计 参数 的 似 然 冰 数 : 


H=0, 0 =-0.2 —— 
0.9 u=0, 77=1.0 
aa u=0, 0°=5.0 —— 
u=-2, 0°=0.5 —— 
0.7 
0.6 
0.5 
0.4 
0.3 
0.2 
0.1 
0 —— | | l 
=5 A A = 0 | 2 3 4 5 


图 1-1 正 态 分 布 曲线 


E Aisn a, 0) = f(X ,XX 0) = ] [ACx, 0) 
=l 
2) 令 方 程 的 两 边 取 对 数 ， 简 化 方程 的 运算 复杂 度 得 : 
InL(X, ? Ay, ns X, 0) 一 >》 Inf(«, 0) 
t=] 


3) 对 方程 两 边 的 算式 求 导 (WERIZIPARA SNE) ， 令 另 一 侧 等 于 0: 


ðlnL( X, ’ x, > 9 x, 0) 
00 


4) 求解 似 然 方程 得 到 L (0) 的 估计 值 。 


最 大 似 然 水 数 的 思想 可 以 基本 理解 为 : 


-已 知 某 个 总 体 下 的 随机 样本 满足 某 种 概率 分 布 。 
` 概率 分 布 的 参数 是 未 知 的 。 


` 经 过 反复 试验 某 个 参数 值 能 够 使 得 样本 出 现 的 概率 最 大 ， 那 么 就 把 这 个 参数 值 当 作 最 大 似 然 估计 近似 值 。 


例题 


如 果 一 个 总 体 服 从 正 态 分 布 XY~N (H，o“) ， 其 中 h，0“ 是 未 知 的 参数 。 假 设 X 是 来 自 于 总 体 的 一 个 抽样 样本 ， 它 的 值 可 以 
表示 为 X1，X2，.…，Xn。 用 极 大 似 然 浮 数 来 求解 未 知 参 数 。 


解 : X 的 概率 密度 可 以 表示 为 : 


] (x-p)? 


f(x |, o ) = 一 一 一 e 2 
人 wv 27 


AMPA 


A il | (x-p)? 
L(x |u,o ) = — e 2? 


方程 两 边 取 对 数 


InL( x u, g) =- zman) ~ Ing’ - 


对 两 个 参数 h，a“ 求 导 


| 2 
dlnL( x | » O ) _ L (x. = nu ) = U 
OM Oo 1 


dInL(x|u, a) | n l o 
3 DIE t3 oy £ (x; —u) _ 0 


得 到 极 大 似 然 估计 结果 : 
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随机 过 程 : (Q, F, P) 为 已 知 的 概率 空间 ， 随 机 变量 X (w，t) ，wEQ 在 概率 空间 中 ， 都 会 有 teT 作 为 Index， 可 以 说 


X (w, t) 是 (Q, F, P) 上 的 一 个 随机 过 程 。 
，Xt，Xt+1 组 成 的 随机 过 程 {Xt，t=0，1，2，...}， 其 中 这 些 变量 的 取 值 
a Xt 的 情况 ， 可 以 将 其 简化 成 Xt41 的 历史 条 件 概 


马尔 可 夫 链 : 已 知 有 一 组 随机 变量 X41，X2，X3,，.… 
范围 构成 状态 空间 {人}。 如 果 Xt+1 在 时 | 间 t+1 的 概率 依赖 于 历史 X1，X2，X3， 
率 仪 依赖 Xt 的 取 值 ， 则 有 : 

P (Xt+1=x|X1=x1, X=, Kx) =P (Xi41=x| X,=x,) 

具有 这 种 性 质 的 随机 过 程 称 为 马尔 可 夫 过 程 。 马 尔 可 夫 链 是 指 时 间 、 状 态 都 是 离散 情况 下 的 马尔 可 夫 随 机 过 程 。 

草 次 马尔 可 夫 链 : 如 果 一 条 马尔 可 夫 链 ，Xu=i 转 移 到 Xt+u=j 的 转移 概率 定义 为 pj=P_ (Xt+u=jlXu=i) ，pi 的 取 值 只 依赖 于 时 
间 t， 而 与 起 始 时 间 u 无 天 ， 则 称 之 为 齐 次 马尔 可 夫 链 。 

马尔 可 夫 链 常用 于 对 一 些 有 内 在 规律 问题 的 预测 ， 最 常见 的 束 是 天 气 了 预测 的 问题 。 


假设 通过 日 弟 的 观察 友 现 : 次 日 与 当日 的 天 气 情 况 存在 内 在 天 系 ， 当 日 天 气 为 晴 时 ， 次 日 天 晴 的 概率 很 大 ;， 当 日 阴 天 或 有 了 雨 
时 ， 次 日 为 雨 的 概率 很 大 。 统 计 某 县 数 年 内 7 月 份 的 天 气 情 况 ， 得 到 天 气 的 转移 概率 表 如 表 1-4 所 示 。 


表 1-4 天 气 的 转移 概率 表 


问题 : 如 果 当 天 为 阴 天 时 ， 那 么 接 下 来 的 3 天 的 天 气 情况 如 何 ? 


0.5 0.3 0.2 
2 0.4 +a] 


那么 初始 状态 X (0) = (0, 1, 0) T, 转移 概率 矩阵 oc: 
则 : 


PX ©) =x (1) = (0.3, 0.4, 0.6) T 


x © = (0.39, 0.46, 0.45) T 
X ‘3) = (0.423, 0.423, 0.45) T 


如 果 当 天 为 阴 天 ， 则 第 二 天 为 雨天 的 概率 大 ， 第 三 天 为 阴 天 或 雨天 的 概率 更 大 ， 第 四 天 几乎 哪 种 天 气 都 有 可 能 ， 友 生 概 率 都 
ERS. 


隐 马 人 尔 可 夫 模 型 (HMM) : 隐 马 尔 可 夫 模 型 也 具有 马尔 可 夫 性 ， 是 隐 蕊 状态 序列 为 马尔 可 夫 链 的 一 种 变形 ， 它 的 观测 状态 
并 不 像 隐 状 态 一 样 可 以 直接 构成 马尔 可 夫 链 ， 但 可 以 通过 隐藏 状态 到 观测 状态 的 转移 和 矩阵， 间接 求 出 观测 状态 的 概率 。 如 图 1-2 
PI. 


al2 a23 


A1-2 ” 隐 蕊 尔 可 夫 模 型 的 5 个 元 素 
隐 马 尔 可 夫 模 型 包含 (S, O, N, A, B) 这 5 个 主要 元 素 。 
(1) S 代 表 隐 马尔 可 夫 模 型 (HMM) 的 隐藏 状态 。 
隐 马 尔 可 夫 的 隐藏 状态 S1，S?，.…，Sn 满 足 马尔 可 夫 性 。 
(2) O 代 表 隐 马尔 可 夫 模 型 (HMM) 的 观测 状态 。 


观测 状态 是 通过 直接 观测 得 到 的 ， 本 身 没 有 马尔 可 夫 


一 二 


生 ， 通 过 观测 桩 体 转 移 矩 阵 和 隐藏 状态 友 生 关系 。 


(3) 品 代 表 初 始 化 状态 概率 和 矩阵 。 

用 于 初始 化 各 个 状态 在 t=1 时 的 算 阵 。 
(4) A 代表 隐藏 状态 间 的 转移 概率 。 

隐 状 态 序 列 可 以 构成 马尔 可 夫 链 ,Aj=P (it+1=Sjlt=Si) , 1sisN, 1<j<N, 

隐 状 态 马尔 可 夫 链 在 t 时 刻 ， 隐 状态 为 的 条 件 已 知 下 ， 在 t+1 时 刻 的 隐 状 态 Sj 的 概率 。 
(5) B 代 表 观 测 状态 转移 算 阵 。 

Bi=P (Oi|S)) 

在 t 时 刻 ， 在 隐藏 状态 9 已 知 的 情况 下 ， 观 测 状态 是 的 概率 。 


一 般 来 咬 ， 可 以 用 和 = (A, B, N) 三 元 组 来 简洁 的 表示 一 个 隐 马 尔 可 夫 模 型 ， 现 在 来 看 一 个 隐 马 尔 可 夫 应 用 的 例子 ， 看 看 
和 马尔 可 夫 在 应 用 上 有 哪些 差异 。 


假设 人 们 根据 当天 的 天 气 (BA, BA, RA) 来 决定 他 们 的 出 行 方式 ， 分 为 步行 和 搭乘 交通 工具 两 种 ， 观 测 概率 转移 息 阵 
可 以 表示 为 如 表 1-5 所 示 。 


表 1-5 ”观测 概率 转移 矩阵 


大气 状 态 (RAS) 间 的 转移 概率 算 阵 为 表 1-6 所 示 : 


表 1-6 RARS (RIRA) 间 的 转移 概率 和 矩阵 


假设 天 气 初 始 化 概率 为 0.3、0.3、0.4， 那 么 人 们 连续 3 天 的 出 行 方式 为 : 交通 工具 -走路 -交通 工具 的 概率 是 多 少 ? 
O 代 表 的 观测 状态 集合 : 
O={ 交 通 工具 ， 走 路 } 


9 代表 的 隐藏 状 态 集合 : 


S={ 了 晴天 ， 阴 天 ， 雨 天 } 
门 代表 的 初始 化 状态 概率 息 阵 : 
TI={0.3, 0.3, 0.437 


A 代表 的 隐藏 状态 间 的 转移 概率 : 


0.5 0.3 0.2 
0.2 0.4 0.4 


0.1 0.6 0.3 
0.5 0.5 


BARRIS EAEL : 


0. 0 


考 碟 HMM 模 型 A= (A，B， 门 ) ， 当 观测 序列 为 O= (交通 工具 、 走 路 、 交 通 
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1) AY, P= (OJ). 
1) 第 一 天 使 用 交通 工具 ， 隐 藏 状态 天 气 是 晴天 的 概率 为 : 
a, (1) =p;b; (04) =0.3*0.5=0.15 
隐藏 状态 天 气 是 阴 天 的 概率 为 : 
xı (2) =psb, (o2) =0.3*0.6=0.18 
隐藏 状态 天 气 是 雨天 的 概率 为 : 
a, (3) =p3b3 (03) =0.3*0.7=0.21 
2) 第 二 天 走路 ， 隐 藏 状态 天 气 是 晴天 的 概率 为 : 
3 
a (1) = | $, œ (ian |b Co) 
tel 
(0.15 *0.5 +0.18 *+0.2 +0.21 *0.1) *0.5 = 0. 066 


隐藏 状态 天 气 是 阴 天 的 概率 为 : 


a,(2) = > a (i)a | by (0) 


(0.15 «0.3 + 0.18 *0.4 +0.21 *«0.6) *0.4 = 0.0972 
隐藏 状态 天 气 是 雨天 的 概率 为 : 
3 
a,(3) = i a, (i) as | bs (02) 
(0.15 «0.2 +0.18 *0.4 + 0.21 *0.3) «0.3 = 0.0495 


继续 递 推 第 3 天 的 3 个 状态 前 向 概率 : 


3) 第 3 天 使 用 交通 工具 ， 隐 藏 状态 天 气 是 晴天 的 概率 为 : 


| > a(i ) an |b, Cos) 


(0. 066 * 0.5 + 0. 0972 «0.2 + 0.0495 0.1) *0.5 = 0.028 70 


a;(1) 


隐藏 状态 天 气 是 阴 天 的 概率 为 : 


m(2) = | F, ali)aa balos) 


t=] 


(0. 066 «0.3 + 0.0972 «0.4 + 0.0495 «0.6) *0.6 = 0.053 


隐藏 状态 天 气 是 雨天 的 概率 为 : 


[ aa (i)ag |b, Co) 


t=] 


(0. 066 «0.2 + 0.0972 «0.4 + 0.0495 *«0.3) *0.7 = 0.046 85 


a; (3) 


最 终 求 出 观测 序列 : O= 〈 坐 公交 、 走 路 、 坐 公交 ) 时 概率 为 : 
3 


(OIA) = œ, (i) = 0. 128 551 
l 


1 6 (ERG 
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小 ， 所 代表 的 信息 则 更 加 有 序 和 规范 。 


炳 的 定义 : 离散 型 的 随机 变量 X 的 概率 p (x) =P (X=x) , xER, XAH (X) A: 


H(X) =- 2 p(x)logp(x) 


假设 0<p (x) <1, —SIITERULE BIA: 


H (X) =-p (x) logsp (x) - (1-p (x) ) logp (x) 


Kes HZ ROS] 1 - 3A. 


从 图 1-3 中 可 以 看 出 ， 当 p (x) =0.5F, AERA, MAEAEA. p (x) =0 或 者 p (x) =1 时 的 粹 最 小 ， 不 确定 
性 最 小 。 


0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ] 


图 1-3 ZAI Bh te R 


PE LSS SANS Fee UE SMBUS: H (x) <logz|x|。 当 且 仅 当 概 率 平均 分 布 的 时 候 ，H (x) 的 最 大 值 为 


1 


lel, 


p(%) = 


aos, TAWATAmSHe A. ARWIDI, C4. 5aE MFA DASA, Bell PRAT. 


1.1D3 算 法 


ID3 算 法 的 核心 原则 是 “最 大 信息 灶 增 益 ”。 所 谓 最 大 信息 粹 增益 即 ， 每 次 进行 下 一 次 分 裂 时 ， 计 算出 所 有 类 别 对 应 的 当前 
特征 的 灶 ， 选 择 能 够 使 得 精 增 益 最 大 的 那 一 个 类 别 进行 下 一 步 的 分 裂 。 假 设 有 一 组 数据 ， 设 D 为 其 革 一 个 特征 类 别 ， 则 根据 迷 的 
定义 可 以 得 到 D 的 炳 为 : 


Il 


entro D = — 


pilog,p. 


其 中 p 志 示 第 [个 类 别 整个 训练 元 组 发 生 的 概率 ， 在 离散 的 随机 过 程 中 ， 可 以 用 i 出 现 的 数量 除 以 整个 数据 的 总 数量 n 作 为 信 
it. 


由 于 对 初始 数据 进行 划分 的 类 别 不 止 一 项 ， 这 融 需 要 对 已 经 进行 D 分 类 的 数据 再 次 分 类 。 假 设 此 次 的 类 别 为 A， 则 特征 A 对 
数据 集 D 划 分 的 条 件 精力 : 


entro, D = 


Alt, ZARARA AR: 


AA=entto D-entro,D 


IDO AN ERE EPRS RSS AANERA, KARE RAIER. 
表 1-7 的 这 个 例子 是 通过 调查 10 个 微 博 账号 来 介绍 ID3 算 法 如 何 构造 决策 树 的 。 


表 1-7 10 个 微 博 账号 特征 表 


at 


> 


T 十 
i it 
Fi my 


低 生活 趣事 T 


高 生活 趣事 


设 W、F、X 和 P 来 表示 微 博 更 新 频率 、 主 要 友 布 内 容 、 性 别 和 账号 是 否 绑 定 手机 ， 下 面 来 计算 增 蔡 。 


由 
fi 


对 


对 
i 


o— MIRAI AI, KEP, MPAA: 


entro P=-0.7log,0.7-0.3log,0.3=0.7*0.51+0.3*1.74=0.879 


之 后 根据 公式 来 计算 剩余 3 个 属性 对 P 的 期 望 。 


1) W 对 P 的 期 望 为 : 
2 2 | 


l 1 2 2 ] ] 
entroyP =Q.3 * | 一 3 1082 a 3 (082 F +0.3 x | 一 3 108, 3 ~ 3 log, e 


0, 0 4, 4 
+0.4 «| - log, 7 - log, 7) =0. 277 +0. 277 +0 =0. 554 


则 信息 增益 AAW=0.879-0.554=0.325 


l l 2 Z | 
z log, a +Q.3 x | - 3 log, 3 3 log, 3 


2) F 对 P 的 期 望 为 : 
] 1 2 2 
entro,P =0.3 * | — 3 log, 373 | 


1 1 3, 3 
+0. 4 # | -log, 7 - 718, 于 | =0. 277 +0. 277 +0. 325 =0. 879 


则 信息 增益 AAF=0.879-0.879=0 


] 


3) X 对 P 的 期 望 为 : 
1, 1 1, 1 | 5. 5 
| +0. 6 * | - log, 6 - © los, | 


entroyP =0.4 * | 一 5 los, > ~ 5 log, = 7 


=0. 4 +0. 39 =0. 79 
则 信息 增益 AAx=0.879-0.79=0.089 
> 裂 选择 W 为 分 裂 属性 。 


因为 W 具 有 最 大 的 信息 增 蔡 ， 所 以 第 一 次 分 


决策 树 示 意图 如 图 1-4 所 示 。 


微 博 更 新 频率 


H 多 少 _ 中 


图 1-4 ID3 决 策 树 示意 图 


在 图 1-4 的 基础 上 ， 再 违 归 使 用 这 个 方法 计算 下 一 分 裂 属性 ， 最 终 残 可 以 得 到 整个 决 贫 树 。 


2.C4.5 算 法 


尽管 1D3 算 法 能 够 对 下 次 分 裂 项 的 决策 有 所 帮助 ， 但 其 本 身 仓 在 一 个 问题 : 它 一 般 会 优先 选择 有 较 多 属性 值 的 类 别 ， 因 为 属 
性 值 多 的 类 别 相对 属性 值 少 的 类 别 有 相 对 较 大 的 信息 增益 。 因 此 1D3 的 后 继 算 法 C4.5 使 用 了 增益 率 (Gain Ratio) 来 作为 选择 分 


支 的 准则 ， 同 时 还 引入 “分 裂 信 息 (Split Information) ”来 惩罚 取 值 较 多 的 分 类 ， 其 定义 为 : 
il 1 

ye è D, | ] D, | 

SplitInformation( D, A) =- ` D entro TD] 


i=l 
KAW: 如 果 (X, Y) 表示 一 对 离散 随机 变量 在 一 起 时 的 不 确定 性 度量 ，X，Y~ P (x, y) , WeEAYEAvsH (X, Y) 
_ | 本 
H(X, Y) = 5 Tplx, y)logp(x, y) 
xeflye WV 
Gaia ey Lee ase SMe. 


RHA: AENEA T, BENS YASAKA. 


H(Y|X) = 2 PCa) HCY |X = x) 
- Èp) |- 之 p() x)p(x)log,p(y |x) | 
= - 之 oP x)p(x)log p(y | x) 
=~ 2 之 P(x， y) log p(y |x) 
H(Y | x) > p(y | «)log,p(y |x) 


yew 
目 信 息 的 定义 : 自信 息 表示 事件 X 友 生 的 不 确定 性 ， 也 用 来 表示 事件 所 包含 的 信息 量 
I (X) =Jog,P (X) 
互信 息 的 定义 : 事件 X、Y 之 间 的 互信 息 等 于 X 的 自信 息 减 去 Y 条 件 下 X 的 自信 息 。 
I (X; Y) =H (X) -H (X|Y) =log,P (X, Y) / (P (X) P CY) ) 


互信 息 | (X; Y) 表示 已 知 Y 值 后 X 不 确定 性 的 减少 量 。Y 的 全 透露 了 有 关 多 少 X 的 信息 量 。 


ITE 1-Say LOK Gis. RAE ERAT SIIB UFZ T A. 


H(X, Y) 


H(X) H(Y) 
图 1-5 RAH, AM Fo BRM MEA 
1.7 本 童 小 结 


表 1-8 为 概率 基础 公式 总 结 。 


表 1-8 概率 基础 公式 总 结 


Kolmogorov 公理 1 
Kolmogorov 公理 2 
Kolmogorov 公理 3 
Kolmogorov 推论 1 
Kolmogorov 推论 2 


Kolmogorov 推论 3 


古典 概率 公式 


条 件 概率 公式 


概率 乘法 规则 


事件 A 全 概率 公式 


事件 的 概率 是 一 个 非 负 的 实数 ， 且 P(4) e RP(4)=0, VAeF 
样本 空间 集合 的 概率 值 为 1，P(O) = 1 

任意 可 数 的 无 交集 的 事件 序列 4 ,4 ++, Az: P(U?14;) = 
空 集 的 概率 值 为 0, P( 名) =0 

if ACB then P(A) <P(B) 

O<P(A) <1 


事件 4 发 生 的 频率 为 0(4;) = N/M, lim Q(A,) = P(A) 


P(AB) 
PUB) 


P(A | B) = P(B) >0 


i-1P(A;) 


n-1 
P(A, N= NA,) =P(A,)P(A, | A,) PCA |4142) P(A, | Qa) 


P(A) = P(A N ( B, | ) = Vy P(AB,) = Vy PCB) PCA | 
paa i=l i=l 


B.) 


期 望 和 方差 的 性 质 


=H (X, Y) -H (Y) 


=H (X) -I (X, Y) 


=H (X, Y) -H (X) 


=H (Y) -I (X, Y) 


P(B;,)P(A | B;)  P(B;)P(A | B;) 


P(B, |A) = PUO 


> P(B;) P(A | B;) 
i=] 


REIT AX 用 来 表示 每 次 随机 试验 中 的 变量 值 


F(x) =P\X<x}, (-w<x<0) 


E(X) 


I 
71M 

= 

D 


E(X) 


faf x) dx 


-%0 


D(X) =E((X-E(X) )*) =E(X*) -E (X) 
a(X) 一 V D(X) 


假设 C 为 第 数 ，X,，Y 是 独立 的 随机 变量 
] 


r 


E(CX) =CE(X) 
2) E(X+Y) =E(X) +E(Y) 


3 


~ 


E(XY) =E(X)E(Y) 


4) D(CX) =C D(X) 


~ 


5) D(X+Y) =D(X) +D 
(Y)f ECC) =C 
7) D(C) =0 
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~~” 


8) D(X) =E(X*) -(E(X))* 


Yo 


=H (X) +H (Y) -H (X, Y) 


H (XIY) <H (X) 


, H (YIX) <H (Y) 


Bee ”语言 模型 与 多 元 文法 


语言 模型 (Language Model, LM) 是 指 词 序列 的 概率 模型 。 利 用 语言 模型 可 以 计算 词 序列 作为 一 个 句子 出 现 的 概率 或 者 
对 句子 中 下 一 个 出 现 的 词 进行 预测 。 语 言 模型 在 自然 语言 处 理 中 具有 重要 的 地 位 ， 尤 其 在 基于 统计 模型 的 语音 识别 、 机 器 翻译 、 
汉语 自动 分 词 和 句法 分 析 等 相关 研究 中 得 到 了 广泛 的 应 用 。 


求解 语言 蛋 型 的 弟 用 方法 包括 N-Gram 模 型 、 最 大 精 模型 、 马 尔 可 夫 异 型 、 条 件 随机 场 模 型 、 神 经 网 络 等 。 本 章 主 要 介绍 词 
人 蛋 型 、N-Gram 模 型 和 一 些 单 用 的 数据 平滑 万 法 。 


当 提 到 鼠标 、 键 盘 、 显 示 器 3 个 时 ， 我 们 更 可 能 会 联想 到 计算 机 ， 而 不 是 足球 。 语 言 模型 融 是 基于 这 样 的 思想 ， 进 行 大 规模 
语 料 的 收集 和 统计 ， 对 文本 进行 判断 和 预测 。 语 言 模 型 中 最 简单 的 残 是 词 余 模 型 。 


RIRE (Bag of Words, BOW) 是 一 种 基于 词 频 的 对 文档 进行 特征 提取 的 方法 。 词 安 模 型 是 将 文档 看 作词 的 集合 ， 对 文 
档 中 出 现 的 所 有 词 进 行 词 频 统计 ， 用 词 频 同 量 来 表示 文档 。 下 面 举例 说 明 词 袋 模型 是 如 何 进行 文档 表示 的 。 


假设 要 使 用 词 袋 模型 对 以 下 文本 进行 表示 : 

` 文本 1: 鼠标 左 键 加 键盘 Delete 重新 启动 计算 机 
` 文本 2: 单 击 和 鼠标 右键 显示 计算 机 桌面 菜单 

` 文本 3: 触摸 显示 器 代替 了 鼠标 键盘 


首先 获得 文本 中 出 现 的 词 的 集合 ，{ 鼠 标 ， 左 键 ， 加 ， 键 盘 ，Delete， 重 新 ， 启 动 ， 计 算 机 ， 单 击 ， 右 键 ， 显 示 ， 桌 面 ， 菜 
EA, fie, Goes, VB, Th 


接着 ， 惑 可 以 将 以 上 3 个 文本 词语 出 现 的 位 置 标 记 为 1， 否 则 标记 为 0 的 方式 ， 用 词 袋 模型 进行 词 频 向 量 表示 ， 结 果 如 下 : 
:文本 1: [1,，1, 1,， 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0] 
.文本 2: [1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 01 
.文本 3: [1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1) 


Menke ANITA, ARWSP RR, VARMA SSCA EEE. Fhe te PLAT 
独立 假设 为 前 担 ， 将 文本 看 作词 安 模 型 进行 计算 的 概率 模型 。 


词 宾 模型 在 构建 的 过 程 中 完全 不 需要 考虑 文档 中 词 出 现 的 顺序 ， 只 独立 统计 每 个 词语 的 词 频 。 相 同 的 词语 无 论 以 何 种 顺序 组 
合 ， 词 安 模型 都 认为 相同 。 然 而 在 目 然 语 言 处理 中 ， 词 序 包含 痢 重 要 信息 。 同 样 的 词语 集合 以 不 同 的 顺序 组 合 ， 其 组 成 句子 出 现 
的 概率 和 表达 的 合 义 可 能 完全 不 同 。 


此 外 ， 当 文档 较 大 时 ， 其 中 出 现 的 词 的 数量 也 随 之 增加 。 词 袋 模 型 得 到 的 词 频 向 量 长 度 等 于 文档 中 出 现 词 的 数量 。 此 时 ,， 文 
本 阅 量 中 极 容易 出 现 大 量 的 零 ， 产 生 稀 跤 向 量 。 黎 玖 向 量 在 建 模 和 计算 中 会 消耗 更 多 的 资源 。 


2.2 N-Gram 醒 型 


2.2.1 N-Gram T 


RREN J RANA FRE Nmn Ea ME. EE, AFERA taR, 4 
同 的 词 以 不 同 的 顺序 组 合 将 会 产生 不 同 的 人 台 义 。 例 如 ，“ 我 正在 撰写 对 话机 器 人 ”和 “对 话机 器 人 正在 撰写 我 ”。 当 出 现 “ 我 正 
在 撰写 ”时 ， 后 面 出 现 “ 对 话机 器 人 ”的 可 能 性 要 大 于 后 面 出 现 “ 计 算 机 ”的 可 能 性 。 这 融 是 词 序 市 来 的 信息 。 


N-Gram 模 型 就 是 基于 这 种 思想 ， 认 为 一 个 词 的 出 现 依赖 于 其 前 面 出 现 的 若干 个 词 。N-Gram 模 型 是 一 种 基于 概率 进行 计算 
判别 的 语言 模型 ， 其 输入 是 词 序列 ， 输 出 是 词 序列 作为 一 个 句子 出 现 的 概率 ， 即 词 的 联合 概率 。 


对 于 一 个 词 序列 S= (w1，w2…，wn) ， 假 设 序 列 中 每 一 个 词 出 现 的 概率 都 依赖 于 之 前 出 现 的 所 有 词 。 那 么 ， 词 的 联合 概 


RP (S) 的 计算 公式 为 : 


P (S) =P (wwz wa) =P (w1) P (w3|w1) …P (ww TwowW1) 


这 残 是 联合 概率 链 规则 ， 这 种 计算 方式 考虑 每 个 词 出 现 之 前 的 所 有 词 对 当前 词 的 影响 。 


2.2 N-Gram 醒 型 


2.2.1 N-Gram fT 


RREN J RANAR FRE Nmn E A rM. SmE, AFERA to, 4 
SANAAA EIRE RRENEN. A, RECESIE" M AENEASE . HHW "RIE 
在 撰写 ”时 ， 后 面 出 现 “ 对 话机 器 人 ”的 可 能 性 要 大 于 后 面 出 现 “ 计 算 机 ”的 可 能 性 。 这 丈 是 词 序 市 来 的 信息 。 


N-Gram 模 型 就 是 基于 这 种 思想 ， 认 为 一 个 词 的 出 现 依赖 于 其 前 面 出 现 的 若干 个 词 。N-Gram 模 型 是 一 种 基于 概率 进行 计算 
判别 的 语言 模型 ， 其 输入 是 词 序列 ， 输 出 是 词 序列 作为 一 个 句子 出 现 的 概率 ， 即 词 的 联合 概率 . 


对 于 一 个 词 序列 S= (w1，w2…，wn) ， 假 设 序 列 中 每 一 个 词 出 现 的 概率 都 依赖 于 之 前 出 现 的 所 有 词 。 那 么 ， 词 的 联合 概 


RP (S) 的 计算 公式 为 : 


P (S) =P (wwz wa) =P (w,) P (wo|w1) =P (w,|wWp1 Ww) 


这 就 是 联合 概率 链 规则 ， 这 种 计算 方式 考虑 每 个 词 出 现 之 前 的 所 有 词 对 当前 词 的 影响 。 


2.2.2 N-Gram 人 算法 


联合 概率 链 规 则 虽然 考虑 了 所 有 词 之 间 的 依赖 天 系 ， 但 是 随 着 词 序列 长 度 的 增加 ， 需 要 估计 的 参数 数目 也 是 指数 级 增长 ， 并 


且 很 难 从 训练 数据 中 准确 地 计算 ， 在 实际 中 很 难 应 用 。 为 了 解决 参数 空间 过 大 的 问题 ， 会 假设 一 个 词 出 现 的 概率 只 依赖 于 它 前 面 
的 n 个 词 ， 这 一 假设 称 为 马尔 可 夫 假 设 。 


引入 马尔 可 夫 假 设 后 ， 词 序列 的 概率 P (S) 可 以 表示 为 : 


P(w**w,) = J| Pw, Www) = J ] P(w, 


=l i=] 


Wi;_1 WiN ) 


这 瓯 是 N-Gram 模 型 。 


理论 上 来 说 ，n 越 大 ， 约 束 信 息 越 多 ， 模 型 融 具 有 更 大 的 辨别 力 。 但 是 随 看 n 的 增 大 ， 参 数 数量 也 呈现 捐 数 级 增长 ， 参 数 空 
间 过 大 ， 会 产生 维 数 灾难 。 同 时 ， 由 于 训练 语 料 有 限 ， 也 容易 产生 数据 黎 玖 。n 越 小 ， 统 计 信息 更 加 可 靠 和 实 有 用。 综合 考 虑 ,一 
般 情 况 下 ，n 的 取 值 不 会 大 于 4。 


1) 当 n=1 时 ， 即 假设 每 个 词 的 出 现 与 周围 的 词 独立 ， 记 作 Unigram， 也 就 是 一 元 语言 模型 ， 即 词 袋 模 型 。 词 序列 的 概率 


为 : 
P(wi**w,) = ] [ Pw, | Wii1 ) [ [PCw) 


t=] i=] 


2) 当 n=2 时 ， 即 假设 每 个 词 的 出 现 只 与 前 一 个 词 有 关 ， 记 作 Bigram， 也 融 是 二 元 语言 模型 ， 也 叫 一 阶 马 尔 可 夫 链 。 词 序列 
的 概率 为 : 


nn 


Cn = J [ Pc, |w; tw ) 一 J [PCw, w) 


:=1 tal 
其 中 每 一 项 条 件 概率 使 用 极 大 似 然 估计 进行 计算 ， 即 : 
P (wilwi1) =C (wiwi) /C (wi1) 
其 中 ，C 表 示 词 或 词 序 列 出 现 的 频次 。 


3) 当 n=3 时 ， 即 假设 每 个 词 的 出 现 与 其 前 面 的 两 个 词 相关 ， 记 作 Trigram， 也 殊 是 三 元 语言 模型 ， 也 叫 二 阶 马 尔 可 夫 链 。 
语序 列 的 概率 为 : 


Piw) = J [ Pw, w; tw) oe ]] P(w, |W; 1wa) 
L=] P=] 


其 中 每 一 项 条 件 概率 使 用 极 大 似 然 估计 进行 计算 ， 即 
P(w, |W; _1%Ww; 2 ) = C(w,w,_,W;_,)/C(w;_,W;_2) 


其 中 ，C 表 示 词 或 词 序 列 出 现 的 频次 。 


在 实际 计算 过 程 中 ， 对 于 句 首 词 与 句 尾 词 的 条 件 概 率 制造 伪 词 进行 计算 。 一 般 标记 句 首 为 “S$〉， 句 尾 为 《E) 。 


以 Bigram 为 例 ， 假 设 语料库 为 : 

“文本 1: O 鼠标 是 计算 机 外 设 “《“E> 。 

. 文本 2: O 键盘 是 计算 机 外 设 “E》 。 

` 文本 3: SO 触摸 显示 器 是 和 鼠标 和 键盘 的 替代 “〈《E> 。 
计算 词 序列 $= (触摸 显示 器 是 计算 机 外 设 ) 的 概率。 

P (AHRI (S) ) =C ( (S) RER) /C ( (S) ) =1/3; 
P (Staves lA) =C (触摸 显示 器 ) /C (触摸 ) =1/1; 
P (是 | 显示 器 ) =C (显示 器 是 ) /C (显示 器 ) =1/1; 
P (计算 机 | 是 ) =C (是 计算 机 ) /C (是 ) =2/3; 

P (外 设 | 计算 机 ) =C (计算 机 外 设 ) /C (计算 机 ) =2/2; 
P ( (E) | 外 设 ) =C (外 设 《E》) /C (外 设 ) =2/2。 


因此 P (S) =1/3*1*1*2/3*1*1=2/9。 即 从 文本 1、 文 本 2、 文 本 3 得 到 的 信息 ， 序 列 S 出 现 的 概率 为 2/9。 


2.2.3 ”NN-Gram 用 途 


N-Gram 模 型 可 以 用 于 词性 标注 、 文 本 分 类 、 汉 语 分 词 、 语 音 识 别 、 机 器 翻译 等 。 下 面 选 取 几 个 应 用 场景 进行 简单 的 说 明 。 
(1) 词性 标注 


词性 标注 是 一 个 序列 标注 问题 ， 对 句子 中 每 个 词 所 属 的 词性 进行 标注 。 常 见 的 词性 包括 名 词 、 动 词 、 形 容 词 等 ， 而 一 个 词 可 
能 属于 多 种 词性 。 比 如 “ 爱 ” 在 一 个 句子 当中 ， 有 可 能 是 名 词 ， 也 有 可 能 是 动词 。 由 于 一 个 词 的 词性 受到 上 下 文 的 影响 ， 可 以 使 
用 N-Gram 进 行 词性 标注 。 


对 “我 很 爱 深 度 学 习 ” 一 句 中 的 “ 爱 ” 使 用 Bigram 进 行 词性 标注 。 
假设 目前 已 向 “ 爱 ” 之 前 出 现 的 “很 ”的 词性 为 副词 ， 那 么 ，“ 爱 ”为 动词 的 概率 可 以 由 以 下 公式 得 到 |: 
P ( “” (动词 ) | 副词 ) =C (副词 ，“ 爱 ” (动词 ) ) /C (副词 ，“ 爱 ”) 


其 中 ，C (副词 ，“ 爱 ” (动词 ) ) 为 语料库 中 “ 爱 ” 为 动词 时 前 面 出 现 副 词 的 次 数 ; C (副词 ，“ 爱 ”) 为 “ 爱 ” 出 现时 
前 面 出 现 副 词 的 次 数 。 


" 爱 ” 为 名 词 出 现在 副词 “很 ”后 面 的 概率 可 以 由 以 下 公式 计算 得 到 : 
P ( 爱 名 词 | 副词 ) =C (副词 ， 爱 (名 词 ) /C (副词 ， 爱 ) 


其 中 ，C (副词 ，“ 爱 ” (名 词 ) ) 为 语料库 中 “ 爱 ” 为 名 词 时 前 面 出 现 副 词 的 次 数 ; C (副词 ，“ 爱 ”) 为 “ 爱 ” 出 现时 
一面 出 现 副词 的 次 效 。 


比较 概率 计算 结果 的 大 小 ， 选 取 概 率 最 大 的 词性 作为 “ 爱 ” 在 这 一 句子 当中 的 词性 进行 标注 即 可 。 
(2) 机 器 翻译 

机 器 翻译 是 一 个 非 弟 复杂 的 过 程 ，N-Gram 语 言 模 型 作为 其 中 的 一 部 分 ， 有 着 十 分 重要 的 作用 。 
对 于 “我 爱 深度 学 习 ” 的 英文 翻译 ， 可 能 存在 以 下 几 种 组 合 : 

A.l love deep learning. 

B.I love learning deep. 

C.I deep love learning. 


这 三 句 话 中 词语 的 翻译 都 正确 ， 从 词语 翻译 的 角度 无 法 确定 哪 一 句 是 最 正确 的 翻译 结果 ， 此 时 可 以 使 用 Trigram 进 行 判断 ， 
如 下 所 示 。 


A 的 概率 由 P (I) (S) (S) ) *P (love| (S) , 1) *P (deep|l, love) *P (learningllove，deep) 公式 可 计算 得 到 |。 
B 的 概率 由 P (I| (S) (S) ) *P (love| (S) , 1) *P (learning|l, love) *P (deepllove，learning) 公式 可 计算 得 到 。 
C 的 概率 由 P (I) (S) (S) ) *P (deep| (S)，1) *P (lovell, deep) *P (learningldeep，love) 公式 可 计算 得 到 。 
计算 发 现 ， 第 1 句 的 概率 远大 于 第 2、3 句 ， 因 此 选择 第 1 句 作为 最 后 的 翻译 结 

(3) 文本 分 类 

N-Gram 可 以 进行 文本 分 类 ， 是 一 种 结合 贝 叶 斯 方法 和 语言 模型 的 分 类 器 。 

下 面 以 识别 垃圾 短信 为 例 进行 说 明 。 垃 圾 短信 的 识别 一 般 分 为 以 下 几 个 步骤 : 

- 对 短信 文本 以 句 尾 标 点 符号 为 分 隔 符 进行 断 句 ; 

` 依次 判断 语句 是 否 为 敏感 语句 ，; 

当 文 本 中 敏感 语句 数量 超过 贱 值 时 ， 判 断 整 个 文本 为 垃圾 短信 。 

其 中 ， 敏 感 语句 束 可 以 使 用 N-Gram 来 进行 判断 。 


例如 ， 要 使 用 Bigram 判 断 “ 日 赚 百 万 ”这 一 句子 是 否 为 垃圾 短信 中 的 敏感 语句 。 分 别 计算 这 一 语句 在 正常 短信 文本 和 垃圾 
短信 文本 当中 出 现 的 概率 ， 计 算 公式 如 下 : 


P (日 | 4$》 , c) *P ( 赚 | 日 ，c) *P (|%, c) *P (FIG, ©) 


其 中 c 为 类 别 标记 ， 选 取 概 率 较 高 的 类 别 作为 语句 标记 即 可 。 


2.3 ”数据 平滑 


N-Gram 模 型 在 计算 时 考虑 了 词语 顺序 的 信息 ， 然 而 由 于 语料库 有 限 ， 依 旧 人 和 存 在 数据 稀 距 的 问题 。 对 于 语料库 当中 未 出 现 的 


词 序 询 ， 并 不 能 够 判定 其 没有 出 现 的 可 能 性 。 同 时 ， 大 量 的 数据 稀 跑 现象 会 导致 词 序 列 的 概率 为 0。 


为 了 解决 这 一 类 零 概率 问题 ， 提 出 数据 平滑 。 数 据 平 滑 的 本 质 是 重新 分 配 概率 空间 ， 适 当地 降低 已 经 出 现 过 的 词 序列 的 概 
， 补 元 给 未 曾 出 现 的 词 序列 ， 使 得 所 有 词 序列 的 概率 都 不 为 零 ， 同 时 所 有 词 序 惠 的 概率 之 和 为 1。 


+ 


典型 的 平滑 方法 有 加 法 平滑 、Good-Turing 平 滑 、 组 合 估计 等 。 


2.3.1 加 法 平 肯 方法 

最 简单 的 平滑 方法 是 强制 让 所 有 N-Gram 人 至 少 出 现 一 次 ， 即 在 计算 概率 之 前 给 所 有 N-Gram 加 1， 这 种 平滑 方式 称 为 Add- 
One Smoothing， 叉 称 为 Laplace 平 滑 。 

以 Bigram 为 例 ， 使 用 Laplace 平 滑 之 后 条 件 概率 计算 公式 成 为 : 

P (ww 1) =C (wo ws) +1/C (wo1) +|V| 

其 中 |V| 表 示 所 有 可 能 出 现 的 词 序列 。 


这 种 强制 加 1 的 平 交 方 法 的 确 解决 了 概率 为 零 的 问题 ， 但 是 对 于 大 词 表 上 的 稀 哎 数据 集 ，Laplace 平 滑 为 他 们 分 配 了 过 多 的 
概率 空间 ， 并 且 认 为 所 有 未 出 现 的 词 序 列 的 概率 相等 。 因 此 ，Laplace 平 滑 的 效果 不 是 很 好 。 


但 是 ，Laplace 平 清 提 供 了 一 种 加 法 平滑 方法 ， 在 此 基础 上 稍 加 改进 ， 得 到 : 
| 
其 中 ，k 是 小 于 1 的 常数 ， 具 体 取 值 需要 根据 语料库 人 工 确定 。 


通常 ，Add-K 比 Add-One 效 果 好 一 些 ， 但 是 依旧 没有 完全 解决 问题 。 


2.3.2 Good-Turing 估 计 法 


Good-Turing 估 计 法 是 很 多 平滑 技术 的 核心 ， 其 基本 思想 是 : 对 于 未 出 现 的 N-Gram， 不 能 认为 其 友 生 的 概率 为 零 。 对 于 这 
些 N-Gram， 将 概率 总 量 中 很 小 的 比例 分 配给 它们 。 但 是 分 配 之 后 出 现 的 N-Gram 的 概率 总 和 束 小 于 1， 因 此 将 所 有 出 现 的 N- 
Gram 根 据 “ 越 是 不 可 信 的 统计 折扣 越 多 ”的 方法 进行 调整 。 


假设 语料库 中 出 现 r 次 的 N-Gram 有 NI 个 ， 未 出 现 的 N-Gram 有 No 个 ， 语 料 库 的 大 小 为 N。 那 和 N=>rNr， 出 现 " 次 的 N- 


Gram 的 频率 是 r/N。 


当 r 较 小 时 ， 其 估计 可 能 不 准确 ， 同 时 考虑 为 从 未 出 现 的 N-Gram 赋 一 个 概率 。 因 此 给 所 有 N-Gram 的 出 现 次 数 打 一 个 折 
扣 ， 使 用 一 个 更 小 的 系数 dr 计算 出 现 r 次 的 N-Gram 的 概率 ，dl 的 计算 公式 如 下 : 


d= (r+1) (N,+1/N,) 


那么 ， 出 现 r 次 的 N-Gram 的 Good-Turing 估 计 值 计算 公式 如 下 : 


Ü (r) =d,/N= ( (+1) (NTVN) ) /Ne 


按照 上 述 公式 进行 平滑 之 后 ， 所 有 N-Gram 出 现 的 概率 之 和 依旧 为 1， 下 面 进行 证 明 。 


SOli) = Olr) N.=} N, xd /N 


=EN «((r+1)(N.,,/N,))/N 


r+l 


-= (1/N) YN * ((r+1)(N..,/N.)) 


r+l 


=(1/N) ¥(r+1)N.., 


由 于 > (r+1) Nr+1=2rNr=N, 因此 5 (r) Nr= (1/N) > (r+1) Nr+1= (1/N) *N=1, 
一 般 来 说 ，r 越 大 ，N-Gram 的 数量 N| 越 小 ， 即 Nr4+1<Nr。 因 此 一 般 情 况 下 ,，dr<r，do>0。 


Good-Turing 佑 计 法 给 所 有 未 出 现 的 N-Gram 赋 予 了 一 个 很 小 的 非 零 值 ， 在 解决 零 概 率 问 题 的 同时 ， 将 出 现 概率 很 低 的 N- 
Gram 的 概率 进行 了 下 调 。 在 实际 自然 语言 处 理 中 使 用 Good-Turing 估 计时 ， 一 般 会 设 定 一 个 闪 值 ， 仅 对 出 现 频 次 小 于 闪 值 的 N- 


Gram 进行 调整 。 


2.3.3 ”组 合 平滑 方法 
加 法 平滑 和 Good-Turing 估 计 和 解决 了 从 未 出 现 过 的 N-Gram 概 率 为 零 的 问题 。 然 而 ， 虽 然 同 是 未 曾 出 现 的 N-Gram， 其 实际 
发 生 的 概率 也 存在 差别 。 


线性 插 信 主要 利用 低 元 N-Gram 模 型 对 高 元 N-Gram 模 型 进行 线性 插值 。 因 为 在 没有 足够 的 数据 对 高 元 N-Gram 模 型 进行 概 
率 估 计时 ， 低 元 N-Gram 模 型 通常 可 以 提供 有 用 的 信息 。 


回 退 法 (Back-Off) 的 基本 思想 是 当 一 个 n 元 对 的 出 现 次 数 足够 大 时 ， 用 最 大 似 然 估计 方法 估计 其 概率 。 当 n 元 对 的 出 现 次 
数 不 够 大 时 ， 采 用 Good-Turing 估 计 对 其 进行 平滑 ， 将 其 部 分 概率 折扣 给 未 出 现 的 n 元 对 。 当 n 元 对 的 出 现 次 数 为 0 时， 模型 回 退 


到 低 元 模型 。 


回 退 法 会 尽 可 能 地 用 最 高 阶 组 合计 算 概 率 ， 当 高 阶 组 合 不 存在 时 ， 退 而 求 其 次 找 次 低 阶 ， 直 到 找到 非 零 组 合 为 止 。 这 是 一 个 
算 


B FINERE 


本 章 将 介绍 目 然 语 言 中 的 序列 标注 模型 以 及 有 关 序 列 标注 模型 的 一 些 重要 知识 。 本 草 将 为 读者 介绍 序列 标注 的 一 些 基础 概 
念 : 分 词 、 词 性 标注 (POS) 、 命 名 实体 名 识别 (NER) 等 。 上 述 概念 在 自然 语言 处 理 中 都 是 比较 基础 和 常见 的 ， 而 且 它 们 同属 
一 种 模型 一 一 序列 标注 模型 。 因 为 序列 标注 模型 应 用 广泛 ， 又 涉及 多 种 算法 实现 ， 所 以 本 章 会 介绍 一 些 工业 界 比 较 常 用 的 算法 
模型 和 概念 。 笔 者 认为 ， 分 词 、 词 性 标注 、 命 名 实体 识别 在 对 话 系 统 的 实战 开 友 中 是 非常 基础 和 重要 的 地 位 ， 下 面 将 对 这 一 类 模 
型 的 共性 及 其 本 质 进行 详细 分 析 。 


本 章 分 为 分 词 、 词 性 标注 、 命 名 实体 识别 3 个 部 分 。 这 些 概念 乙 间 相似 却 又 相互 独立 ， 读 者 可 以 有 选择 性 地 阅读 自己 感 兴趣 


的 部 分 。 


3.1 ASIA) 


分 词 残 是 把 一 个 句子 按照 其 中 词 的 含义 进行 相应 的 切 分 。 与 英文 天 然 以 空格 作为 词 的 分 割 不 同 的 是 ， 中 文 是 以 字 为 最 小 单 
位 ， 所 以 中 文 首 先 需 要 进行 分 词 。 不 过 瑞 文 虽然 以 空格 分 割 ， 但 是 实际 上 英文 有 时 也 是 需要 进行 分 词 操作 的 。 比 如 : 英文 
中 “It s” 就 需要 分 割 成 “It is”。 关 于 英文 这 里 不 做 重点 讲解 。 


Oa 中 文 分 词 是 需要 符合 一 些 标准 的 。1990 年 中 国 颁 布 了 分 词 国家 标准 GB/T 13715-1992 《信息 处 理 用 现代 汉语 分 词 


规范 》。 


中 文 分 词 企 对 话 系统 乃至 于 中 文 目 然 语 言 处 理 中 都 起 寿 至 关 重 要 的 作用 。 人 在 过 去 的 二 十 多 年 的 友 展 过 程 中 ， 分 词 技术 取得 了 
长 足 的 进步 。 

实 跤 证 明 ， 基 于 规则 的 分 词 系统 效果 比 不 上 基于 统计 学 习 的 分 词 系统 。 未 登录 词 造 成 的 分 词 精度 失 沙 人 至少 比分 词 层 义 大 ?5 倍 
以 上 ， 基 于 字 的 标注 系统 能 够 大 幅度 提高 未 登录 词 的 识别 能 力 。 


下 面 通过 条 件 随 机 场 来 讲述 一 下 基于 统计 学 习 的 中 文 分 词 的 基本 原理 。 


3.1.1 ”条件 随机 场 


条 件 随机 场 (Conditional Random Field, CRF) [的 主要 思想 来 源 于 最 大 炳 模型 ，CRF 模 型 可 以 看 作 是 一 个 无 向 图 模型 
或 者 马尔 可 夫 随 机 场 。 第 1 章 中 已 经 讲 过 基于 马尔 可 夫 思 想 的 统计 模型 ， 这 里 融 不 再 警 述 了 ， 但 是 有 一 点 需要 强调 的 是 ， 隐 马尔 
可 夫 (Hidden Markov Model, HMM) 有 一 个 经 典 的 假设 ， 丈 是 每 一 个 状态 只 与 它 前 面 的 状态 有 关 。 这 样 的 假设 往往 是 存在 
偏差 的 。 隐 马尔 可 夫 模 型 结构 如 图 3-1 所 示 。 


O71 O7 O3 Or] Or 
图 3-1 隐 马 尔 可 夫 模 型 的 图 结构 
条 件 随机 场 对 于 序列 标注 问题 存在 着 天 然 的 优势 。 该 模型 是 在 给 定 需 要 标记 的 观察 序列 的 前 提 下 ， 计 算 整 个 标记 序列 的 联合 
概率 ， 而 不 是 在 给 定 当前 状态 的 条 件 下 ， 定 义 下 一 个 状态 的 分 布 。 条 件 随 机 场 模 型 结构 如 图 3-2 所 示 。 
Yı Y3 Yri Y, 


= 


图 3-2 条件 随机 场 的 图 结构 


Oe 条 件 随 机 场 算 法 在 自然 语言 序列 标注 问题 中 是 一 个 比较 重要 的 算法 。 有 很 多 书籍 侧重 于 讲述 该 算法 的 应 用 部 分 ， 
讲述 的 过 程 是 从 隐 马 尔 可 夫 讲 解 到 条 件 随 机 场 算 法 ， 这 是 由 于 在 序列 的 解码 过 程 中 ， 条 件 随 机 场 和 隐 马 尔 可 夫 使 用 了 相似 的 解码 
过 程 。 严 格 来 讲 ， 条 件 随机 场 思 想 更 靠近 最 大 业 模 型 。 这 里 先 讲解 条 件 随机 场 算 法 ， 只 是 因为 在 分 词 这 个 应 用 场景 中 它 充当 的 角 
色 更 重要 而 已 。 后 续 章 节 会 详细 讲解 隐 马 尔 可 夫 算法 。 


下 面 介 绍 几 个 必要 的 概念 : 


1) (Graph) 是 节点 (Node) 和 连接 节点 的 边 (Edge) 组 成 的 集合 。 节 点 记 为 v， 边 记 作 e， 节 点 和 边 的 集合 分 别 记 作 
V 和 E， 图 可 以 表示 成 G= (V, E) 。 如 果 构 成 图 的 边 带 有 方向 性 ， 则 称 为 有 向 图 ， 如 果 构 成 图 的 边 不 带 方向 性 ， 则 称 为 无 向 图 。 
2) 概率 图 模型 (Probabilistic Graphical Model) 是 用 图 来 表示 的 概率 分 布 。 设 有 联合 概率 分 布 P (Y) ，YEy 是 一 组 随机 
变量 。 由 无 向 图 G= (V, E) 表示 概率 分 布 P (Y) ， 即 在 图 G 中 ， 节 点 vEV 表 示 一 个 随机 变量 Yy,， Y= (Yv) ，VEV， 边 eEE 表 


示 随 机 变量 之 间 的 概率 依赖 关系 。 比 如 图 3-3 中 P (Y4) SP (Yo) , P (Y3) 都 有 关 。 


3) 概率 无 向 图 模型 (Probabilistic Undirected Graphical Model) ， 又 称 为 马尔 可 夫 随 机 场 (Markov Random 
Field) ， 其 是 一 个 可 以 由 无 向 图 表示 的 联合 概率 分 布 的 概率 模型 。 具 体 定 义 如 下 : 设 有 联合 概率 分 布 P_ (Y) ， 由 无 向 图 


G= (V, E) 表示 ， 在 无 向 图 G 中 ， 市 点 表示 随机 变量 ， 边 表示 随机 变量 之 间 的 依赖 关系 。 如 果 联 合 概率 分 布 P (Y) 满足 成 对 、 
局 部 或 全 局 马尔 可 夫 性 ， 则 称 为 概率 无 向 图 模型 或 者 马尔 可 夫 随 机 场 。 


4) 成 对 马尔 可 夫 性 : 设 u 和 Vv 是 无 向 图 G 中 任意 两 个 没有 边 连 接 的 节点 ， 节 点 u 和 Vv 分 别 对 应 随机 变量 Yu 和 Yy。 其 他 所 有 节 点 
为 O， 对 应 的 随机 变量 组 是 Yo。 成 对 马尔 可 夫 性 是 指 在 给 定 随 机 变量 组 Yo 的 条 件 下 随机 变量 Yu 和 YYV 是 条 件 独 立 的 ， 即 


P (Ya Y,1Y,) =P (YIY) (Y,|Y,) 


在 图 3-4 中 , P (Y1) 和 P (Y4) 是 两 个 没有 边 连接 的 节点 ， 并 且 都 和 P_ (Yo) AP (Y3) 有 关系 ,根据 成 对 马尔 可 夫 


性 , P (Y4, YalY2) =P (Y1IY2) *P (Ya4lY2) ， 同 理 可 得 P (Y1, YalY3) =P (Y1IY3) *P (YalY3) 。 


5) 局 部 马尔 可 夫 性 : 设 vEV 是 无 向 图 G 中 的 任意 一 个 六 点 ，W 是 与 \V 有 边 连接 的 所 有 节点 ，O 是 v、W 以 外 的 其 他 所 有 
扩 。V 表 示 的 随机 变量 是 Yy,，W 表 示 的 随机 变量 组 是 YWw，0O 表 示 的 随机 变量 组 是 Yo。 局 部 马尔 可 夫 性 是 指 在 给 定 随机 变量 组 


Yw 的 条 件 下 随机 变量 Yv 与 随机 变量 组 Yo 是 独立 的 ， 即 
P (Y YIY) =P (Y,1Y,) (Y,|Y,,) 


6) 全 局 马尔 可 夫 性 : 设 节点 集合 A、B 是 在 无 向 图 G 中 被 证 点 集合 C 分 开 的 任 蕊 结 点 集合 ， 如 图 3-5 所 示 。 节 操 集 合 A、B 和 C 
对 应 的 随机 变量 组 分 别 是 YA、Yp 和 和 Yc。 全 局 马尔 可 夫 性 是 指 给 定 随 机 变量 组 Yc 条 件 下 随机 变量 组 YA 和 YB 是 条 件 独立 的 ， 即 


P (Ya, Yp|Yc) =P (YAIYc) (YglYc) 


上 了 式 被 称 为 Hammer sley-Cufford 定 理 。 


a 


图 3-3 ”概率 图 模型 


图 3-4 马尔 可 夫 随 机 场 


图 3-5 ”全 局 马尔 可 夫 性 


7) 团 (Clique) : 无 向 图 G 中 任何 两 个 节点 均 有 边 连 接 的 书后 子 集 称 为 团 。 


8) mA (Maximal Clique) : 铬 A 是 无 同 图 6G 的 一 个 团 ， 如 果 无 法 再 填 入 一 个 节操 使 其 成 为 更 大 的 团 ， 则 称 A 是 6G 的 最 大 
团 。 例 如 ， 在 图 3-6 中 ,市 后 {1，2，3， 人 省 束 构成 了 一 个 团 而 且 它 是 一 个 最 大 团 。 如 图 3-7 所 示 。 


图 3-6 W 


>94 


图 3-7 RAH 
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9) 概率 无 向 图 中 模型 的 因子 分 解 : SRA ARE NKR RnR A LAREN LSA BENATAR 
作 。 

10) 势 函数 : 给 定 概 率 无 向 图 模型 ， 设 其 无 向 图 为 6，C 为 G6 上 的 最 大 团 ，Yc 表 示 C 对 应 的 随机 变量 。 那 么 概率 无 向 图 模型 
的 联合 概率 分 布 P (Y) 可 写作 图 中 所 有 最 大 团 C 上 的 消 数 Vc (Yc) 的 乘积 形式 ， 即 


P(Y) n Wel Y.) 


其 中 ，Z=>y[lcbc (Yo) 为 规 沁 化 因子 ， Yo (Yc) HARAR, We (Yc) =exp{-E (Yo) }. 


11) CRF 定 义 : 设 X 与 Y 是 随机 变量 ,，P (YIX) 是 在 给 定 X 的 条 件 下 Y 的 条 件 概率 分 布 。 用 随机 变量 Y 构 成 一 个 由 无 向 图 
G= (V, E) 表示 的 马尔 可 夫 随 机 场 ， 即 


P (YIX, Y,, wv) =P (Y,|X, Yy, w~v) 


对 任意 节点 Vv 成 立 ， 则 称 条 件 概 率 分 布 P (YIX) 为 条 件 随 机 场 。 上 式 中 w ~ v 表 示 在 图 G= (V, E 中 与 节点 v 有 边 连 接 的 所 
有 节点 W，WzV 表 示 节 点 v 以 外 的 所 有 节点 ，Yv、Yu 与 YW 为 节点 v、u 与 W 对 应 的 随机 变量 。 


12) 线性 链条 件 随 机 场 定义 : 设 X= (X1，X2，.…，Xn) ，Y= (Y1，Y2，.…，Yn) 均 为 线性 链表 示 的 随机 变量 序列 ， 大 在 
给 定 随 机 变量 序列 X 的 条 件 下 ， 随 机 变量 序列 Y 的 条 件 概率 分 布 P (Y|X) 构成 条 件 随机 场 ， 即 满足 马尔 可 夫 性 


P (YX Yr s Nags Vadis. “> Ya) =P CY Xs Ying Ya) 
Si=1, 2, .., 1, n (在 i=1 和 n 时 只 考虑 单 边 ) AY, PRP (YIX) 为 线性 链条 件 随机 场 。 例 如 ， 在 图 3-8 中 ，P (YX, Y}... 


Yt1T，Yt+1，…，Ynh) =P (YolX, Yq, Y3). 


Y Y, 


图 3-8 ”线性 链条 条 件 随机 场 


在 标注 问题 中 ，X 表 示 输 入 观测 序列 ，Y 表 示 对 应 的 输出 标记 序列 或 状态 序列 。 


13) 条 件 随机 场 的 参数 形式 : 根据 Hammersley-Clifford 定 理 可 知 ， 设 P (YIX) 为 线性 链条 件 随 机 场 如 图 3-8 所 示 ， 则 在 随 
机 变量 X 取 值 为 x<、 随 机 变量 Y 取 值 为 y 的 条 件 下 ， 概 率 具有 如 下 形式 : 


] 
P(y | x) = 7 exp ( Di cAnk (Yi_1, Vi, X, 4) + Di BS; (Yi, x, 1)) 
其 中 
Z(x) = > exp ( Di Ane, (Yii „Yis X, t) 十 È i j s; Yis x, 7)) 


(tk，sj) 是 特征 函数 ，〔 和 k，Hj) 是 对 应 的 权 值 Z (x) 的 规范 化 因子 。tk 是 转移 特征 ， 其 依赖 当前 位 置 和 前 一 个 位 置 ，s 表 
示 状态 特征 ， 其 只 考虑 当前 位 置 。 它 们 都 是 局 部 特征 函数 。 通 常 (tk s) 取 1 或 者 0。 条 件 随机 场 完全 由 (tk s) 和 (Ak, H) 
所 决定 . 

14) 条 件 随机 场 的 预测 能 力 : 假设 给 定 条 件 随机 场 P (ylx) 和 输入 序列 x，y 是 指 待 观测 的 序列 ， 求 条 件 概率 P (ylx) 最 大 的 
输出 序列 y*，y" 同 时 代表 标记 序列 。 标 记 序 列 对 观测 序列 进行 标注 。 条 件 随机 场 的 预测 算法 是 维特 比 算法 ， 后 续 的 章节 中 有 详细 


介绍 。 


[1] http://crfpp.source forge.net. 


3.1.2 ”条件 随 机 场 进行 中 文 分 词 


本 书 将 介绍 可 以 进行 中 文 分 词 的 条 件 随 机 场 算法 。 条 件 随机 场 进 行 分 词 的 流程 如 图 3-9 所 示 。 


输入 训练 集 


分 词 标 注 


分 词 标注 


特征 抽取 


CRF ix 


结束 


AF IE THEM 


CRF 模 型 训 | 


练 | 


图 3-9 条件 随机 场 分 词 模型 


工程 中 一 般 使 用 CRF+ + 工具 进行 训练 ，CRF+ + 是 用 C++ 编写 的 。 工 具 输 入 一 般 是 模板 文件 和 训练 文件 ， 输 出 是 模型 文件 。 
CRF++ 工 具 学 习 框 架 和 测试 框架 ， 如 图 3-10 和 图 3-11 所 示 。 


初始 化 特征 值 打开 模板 和 训练 文件 


feature index.set alpha() feature index. open(templfile, trainfile) 


= 13 等 y b 
训练 模型 读 入 训练 集 
cr learn 
obj += xL[i]—>eradient(#expected(0]) | fpp_ ( ) 
buildLattice(): /构造 格子 _x-—>read(&ifs) 
forwardbackward(): 7 前 向 后 向 算法 
alcExpectation(): 好 计算 梯度 
sts ee [answer_[i]]—>cest: CT 
s + (#it)—- cost; ER » 
Viterbi: 模板 与 训练 集 匹配 
return ZZ - =; | 
lbfgs.optimize(&alphal0], obj, expected(0])//Be(tik _x—>shrink() 


图 3-10 ”CREF++ 学 习 框 架 


read(is) 


Parse} 
tagger.parse_stream(is.get(), os.get() ) buildFeatures(): 
asp steams as, een0) buildLattice0:// 构 造 格 f os—>write( ) 
forwar dbackward0:V 前 阿 后 回 算法 
Ws 


TaggerImp!l: :open (Param *param) Deere ene nb model 


图 3-11 CRF++ 测 试 的 框架 
使 用 CRF++ 工 具 进 行 训 练 ， 训 | 练 文 件 和 测试 文件 需要 符合 一 定 的 格式 。 


一 般 来 说 ， 训 | 练 和 测试 文件 必须 包括 多 重 表征 ， 而 每 行 表征 又 包括 了 数列 ( 列 数 是 固定 的 ) 。 表 征 的 定义 由 任务 的 属性 决 
定 ， 人 在 大 多 数 的 情况 下 ， 它 们 只 是 简 蛙 地 与 文字 相对 应 。 每 项 表征 必须 以 一 行 来 表示 ， 每 一 列 之 间 以 一 个 空格 或 一 个 制 表 符 分 
开 。 一 个 序列 的 表征 是 一 个 句子 。 为 了 区 分 各 个 句子 ， 在 一 句 话 的 表征 序列 后 放置 一 个 空 行 。 


i 


理论 上 可 以 给 定 任意 数量 列 ， 但 所 有 表征 的 列 数 必须 是 相同 的 。 列 之 间 存 在 着 一 定 的 “语义 天 系 ”， 如 ， 第 一 列 是 “ 字 ”， 
第 二 列 是 “位 置 标识 ”， 第 三 列 是 “位 置 的 分 类 ”等 。 最 后 一 询 用 来 表示 的 是 训练 CRF 的 实际 标识 。 


O+ 实际 标识 ， 其 实 就 是 训练 集 里 面 ， 人 工 给 它 标 上 的 标签 ， 用 CRF 训 练 好 后 ， 处 理 的 文件 应 该 是 只 有 前 两 列 ， 而 


CRF 给 出 的 结果 就 是 这 里 的 最 后 一 列 。 


图 3-12 给 出 一 个 CRF++ 训 | 练 时 的 样 例文 件 。 
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reckons VEE 


mit Orr rIt 


图 3-12 CRE++#¥4i 


在 样 例文 件 中 ， 每 行 表 征 有 3 列 ， 第 一 列 是 文字 本 身 ， 如 He、reckons 等 ， 第 二 列 是 文字 相关 词性 ， 如 VBZ、PRP， 第 三 列 
表示 词 块 的 标识 。 


下 面 来 举例 襄 明 条 件 随机 场 进行 中 文 分 词 的 过 程 。 如 图 3-13 所 示 。 


准备 分 词 完成 的 语 料 作 为 训练 集 如 我 正在 撰写 SEK MTT Pla A 


添加 字 的 状态 信息 标记 结果 : 我 |S 正 |B 在 EE PXB E 实 |B 战 E 对 |B 话 |E 机 |B 器 IM 人 |E 


字 在 语料库 中 出 现 的 次 数 


中 文 分 词 Tramp |。 出现 为 4 种 状态 的 概率 
ja / 
状态 转移 概率 


上 下 文 关系 等 


训练 模型 


分 词 ， 分 词 的 过 程 就 是 对 每 个 字 的 状态 进行 确定 


图 3-13 ”利用 CRF 进 行 中 文 分 词 过 程 
具体 过 程 如 下 所 示 。 
1) 准备 分 词 完 成 后 的 语 料 作为 训练 集 ， 如 图 3-14 所 示 。 


“Al 常 说 生活 是 一 部 教科书 ， 而 血 与 火 的 战争 更 是 不 可 多 得 的 教科 
书 , 她 确实 是 名 副 其 实 的 “我 的 大 学 ” 。 

“0 7 Ae 8B, 人伦 深 每 觉 影 生 香 。 

”有 吃 屎 的 东西 ， 连 一 捆 麦 也 钢 不 动 呀 ? 

他 “ 严格 要 求 BO, 从 一 个 科举 出 身 的 进士 成 为 一 个 伟大 的 民主 主义 者 ， 进而 
成 为 一 位 杰出 的 党 外 共产 主义 战士 ， 献身 于 崇高 的 共产 主义 事业 。 

” 征 而 未 用 的 耕地 和 有 收益 的 土地 , PE TK 。 

”这 首先 是 个 民族 问题 ， 民族 的 感情 问题 。 

”我 扔 了 RR 手榴弹 ， 他 —FF 出 溜 FA. 

” 废除 先前 存在 的 ”所有制 关系 ， 并 不 是 共产 主义 所 BR 的 特征 。 

” 这 个 案子 从 始 至 今 RN 都 没有 R BE 接触 过 ， 也 没有 R RE 、 RS 接触 
过 。 


图 3-14 分词 训 练 语 料 集 样 例 


2) 添加 字 的 状态 信息 ， 分 别 为 : B (Begin, ij) 、E (End, 词尾 ) 、M (Middle, F) 、S (Single, 单个 词 ) ， 如 
图 3-15 所 示 。 


3) 确定 模版 ，CRF 有 Unigram 和 Bigram 两 种 模版 。 本 次 训练 输入 模版 如 图 3-16 所 示 。 


图 3-15 ”分 词 训练 语 料 标 注 样 例 


U00:%x[-2,0] 
UO1:%x[-1,0] 
UO2:%x[0,0] 
U@3:%x[1,0] 
U04:%x [2,0] 
U@5:%x [-2, 0] /%x [-1, 0] /%x [0, 0] 
U@6:%x [-1,0]/%x [0,0] /%x [1,0] 
UO7:%x [0,0] /%x [1,0] /%x [2,9] 
U@8:%x [-1,0] /%x [@, @] 
UQ9:%x [0,0] /%x [1,9] 
B 
图 3-16 “分词 训练 语 料 标注 样 例 
假设 训练 语 料 为 “我 正在 撰写 实战 对 话机 器 人 ”， 当 前 位 置 为 “ 实 ”。 
* U00-U04 表 示 某 个 位 置 与 当前 位 置 的 关系 ， 比 如 : UAH R 与 实 的 关系 。 
` U05-U07 表 示 某 三 个 位 置 与 当前 位 置 的 关系 ， 比 如 : USAR NR” E? “ 实 与 实 的 关系 。 
- U08-U09 表 示 某 两 个 位 置 与 当前 位 置 的 关系 ， 比 如 : U08 表 示 “BR” “ 实 与 实 的 关系 。 
4) 训练 模型 ， 最 终 的 模型 文件 如 图 3-17 所 示 。 
version: 100 


cost-Tfactor: 1 
maw ns EOEAMAOQ 


WAALU: VeuUO 


xsize: 1 


Tree 2 9 © 


U@O:%x[-2,0] 

U@1:%x [-1,0] 

U@2:%x[@,0] 

UQ3:%x[1,0] 

U04:%x[2,0] 

UQ5:%x [-2,0] /*x[-1,0] /%x [0,0] 
U@6:%x [-1,0]/%x [0,0] /%x[1,@] 
UQ7:%x[@,0]/%x[1,0] /%x [2,0] 
UO8:%x [-1,0]/%*x [0,0] 
U09:%x [0,0] /%x[1,0] 

B 


1672 B 

40 U00:_B-1 
0 U00:_B-2 
15952 U00:— 
1484 U@@: ' 
5844 U0O: ’ 
RA IIAA+”™ 


w 1 —_ i i & 


16920 U00.: ” 


22884 U09:，/ 这 
3860 UOS:, /i# 
2472 U09: ，/ 连 
44204 U09:, /@ 
10220 U09:，/ 那 
11840 U69:，/ 都 
16676 U09:，/ 面 
16916 U@9:; /“ 
10440 U09:; / 另 
2816 UO9:? / B+1 


0. 1641042350363177 
-0 . 4599560852638021 
-0 . 2572607487365429 
ð. 5531125989640133 
0. 1641042350363177 
-0 . 4599560852638021 
-0 . 2572607487365429 
ð. 5531125989640133 
-0 . 3963592775368531 
-0 . 5604923442062809 
-0 . 1123114510805513 


1 ABOVE BIATIOVIAAEE 


@.2297875765865778 

-0 . 0703296275130755 
-0 . 0036941857642509 
-0 . 1557637633092694 


Hh, BiN T REARA (Version) 、 参 数 (Cost-Factor) 、 特 征 国 数 最 大 id (Maxid) 、 特 征 维 数 
(Xsize) 。 第 二 部 分 是 标签 B、E、M、9S。 第 三 部 分 是 模版 。 第 四 部 分 则 是 特征 函数 ， 其 中 第 一 列 为 jd、 第 二 列 为 模板 及 参数 。 
最 后 是 特征 函数 的 权 值 。 


3.2 ”词性 标注 


词性 (Part-of-Speech) 是 词汇 基本 的 语法 属性 ， 通 弟 也 称 为 词类 。 词 性 标注 是 指 根 据 文章 的 上 下 文句 蕊 ， 对 句 中 的 每 一 
个 词汇 标记 上 合适 的 词性 ， 如 : 名 词 、 动 词 、 形 容 词 、 副 词 或 是 其 他 词性 。 词 性 标注 中 存在 的 最 大 问题 束 是 如 何 消 除 上 收 义 ， 因 为 
很 多 词汇 往往 同时 具有 多 个 词性 ， 即 词 的 兼 类 现象 。 确 定语 句 中 每 一 个 词汇 词性 并 加 以 标注 的 过 程 ， 是 中 文 信息 处 理 面临 的 重要 
基础 性 问题 。 词 性 标注 也 是 一 个 过 程 ， 它 一 般 是 在 词性 标记 集 已 确定 的 情况 下 ， 并 且 词 典 中 每 个 词 都 有 确定 词性 的 基础 上 ， 对 一 
个 输入 词 串 转换 成 相应 词性 标记 串 的 过 程 。 


3.2.1 ”词性 标注 的 标 疹 


词性 标注 有 两 种 不 同 的 标准 。 一 种 是 美国 宾 州 大 学 开 友 的 汉语 句法 树 库 标 准 ， 下 文 称 作 《 宾 州 规范 》 (参见 《 宾 州 词性 标记 
表 》) 。 还 有 一 种 是 中 科 院 和 北京 大 学 形成 的 一 套 词 性 标注 规 施 ， 下 文 称 作 《北大 规 泡 》 (《 北 大 词性 标记 表 》) 。 下 面 给 出 宾 
州 规范 和 北大 规范 ， 并 忆 结 以 下 两 种 标注 体系 的 对 照 关 系 (《 宾 州 规范 和 北大 规范 对 照 》) 。 


3.2.2 ”利用 隐 马 尔 可 夫 进 行 辣 性 标注 


第 1 章 中 已 经 讲述 了 HMM 算 法 ， 让 我 们 回顾 一 下 。 
HMM 包 含 了 两 个 随机 过 程 : 一 个 是 马尔 可 夫 过 程 ， 另 一 个 是 符号 输出 过 程 。 


如 果 存 在 着 一 个 随机 变量 序列 X=X1，X2.….XT， 随 机 变量 的 取 值 于 有 限 集 S={S1，S2.…SN}， 则 称 $ 为 状态 空间 。 如 果 该 随机 
过 程 满足 以 下 两 个 假设 条 件 : 


- 有 限 的 视野 性 : P (XT41|X1,， Xs,，…，XT) =P (Xr41lXr) o 
. 时 间 不 变性 : 条 件 依赖 不 随时 间 的 改变 而 改变 。 
若 随 机 过 程 满足 上 述 两 个 假设 条 件 ， 则 称 其 为 马尔 可 夫 过 程 ( 链 ) 。 


HMM 有 一 个 观察 序列 OQ=O1，0O2，...，OT， 该 过 程 还 隐 合 着 一 个 状态 序列 X=X1，X2，...，XT。 它 包含 了 两 个 假设 : 第 一 
个 是 如 上 的 马尔 可 夫 假 设 。 还 有 一 个 是 输出 条 件 独立 性 假设 。 输 出 条 件 假 设 是 指 : 1) 输出 仪 与 当前 状态 有 关 ; 
2) P (O4, Oo, ..., OX1, Xo, Xp) =P (OrXt) 。 


HM M 这 个 算法 模型 纺 合 的 原理 很 简单 。 融 是 表层 事件 是 一 个 可 观察 的 序列 ， 质 层 事件 是 隐藏 、 不 可 见 的 ， 是 一 个 状态 序 
列 。 表 层 事件 由 底层 事件 引起 ， 根 据 表 层 事 件 的 可 观察 序列 ， 可 以 推测 生成 它 的 底层 事件 的 序列 。 如 可 以 通过 观察 一 个 人 收拾 房 
间 和 去 超市 购物 的 情况 ， 推 测 天 气 情 况 。 


HMM 可 以 用 如 下 五 元 组 (S, V, p, A, B) 模 王 进行 搞 述 。 

1) SR. S: 状态 集合 ，{s1，…，SsN}; Vi 输出 字母 表 ，{v1，…，VvM)}。 
2) 模型 参数 。p: 初始 状态 概率 。p={pj); 

A: 状态 转移 概率 。A={aih; 

B: 符号 输出 概率 。B={bjk。 

3) 序列 。 状 态 序列 : X=X1，X2，.…，XT; 

输出 序列 : O=01, Oo, ..., OT. 

如 表 3-1 所 示 HM M 需 要 解决 的 3 个 基本 问题 包括 : 


给 定 一 个 观察 序列 O=O1，O2，…，OT 和 模型 h= (A, B, T). 


- 问题 1 如何 有 效 计算 观察 序列 O=O1，O2，…，OT 的 概率 P(O|h) ? (评价 问题 ) 
` 问题 2 如何 寻找 最 佳 的 状态 序列 X=X1，X，，…，XT? (解码 问题 ) 


` 问题 3 如 何 训练 模型 参数 hn= (A, B, x) , 使 得 P (Olu) 概率 最 大 ? (模型 参数 学 习 、 训 练 问题 ) 
解决 方法 如 表 3-1 所 示 。 

下 面 主要 讲 3 个 问题 的 具体 解法 。 

(1) 问题 1 


评价 问题 算法 方案 如 图 3-18 所 示 . 


P(O |p) = EPO, X |p) = YPCO|X, WPA |p) 


由 输出 条 件 独立 假设 ， 可 以 得 到 


X;) 一 b xio, Ora Drier 


N 
P(O|X, u) = P(0,, 0,, =, Op |X, X% Xp, u) = 
z=l 


403-1 HMM 3 个 问题 的 解决 方法 


给 定 一 个 模型 = (A, B, m), 


计算 某 一 观察 序列 0 = | ”向 前 算法 ,动态 规划 


问题 1: 


评价 问题 …，07 的 概率 PCO |u) 算法 
给 定 一 个 观察 序列 0 = 0.,， d; ig 
问题 2: 
B，Tr) ， 如 何 寻 找 最 佳 的 状态 序列 六 =X ,XX ，… Vie: 
fie HAS [a] see 
X = arg maxP( X | 0， u ) = arg maxP( X, O | u) 
根据 : 可 观察 序列 O=-0,, 4.5 a Or, 初始 的 模型 
问题 3 : 
7 /= (4，B，T) 向 前 -向 后 算法 ，EM 


黄 型 参数 学 习 、 训 练 
BESEF. WE] 优化 模型 参数 : 寻找 更 好 的 模型 几 = (A, B, a), WE | gy 


问题 
n= ate max? (O | u) 


图 3-18 评价 问题 算法 方案 1 


根据 前 面 提 到 的 


P(X |u) = P(X, A |u) P(X.) 。 [ea |X) = TW) Vaya aa Ospa 


T-1 


>» Ty, ban [a Ds 2541 %o41%%41 


(xapi 


P(O |u) 


这 个 算法 的 缺点 是 算法 的 时 间 复 杂 度 较 高 ， 为 O (TN) , 


可 用 动态 规划 的 方法 优化 上 面 的 算法 ， 如 图 3-19 所 示 。 


图 3-19 ”用 动态 规划 法 优化 评价 算法 


首先 定义 向 前 变量 : 设计 刻 ， 输 出 序列 O01，O2?，.…，Ot 且 状态 xt=si 的 概率 。 
a, (i) =P (01 Op X=si|p) 
根据 输出 条 件 假 设 和 和 有限 历史 假设 ， 得 到 如 下 关系 : 


Ql 6 一 P(0,0,°+°0,,; 9 Ma = S; |u) 


N 
= 2 PL CA Ost Me = Sis Ma = slu) 


eA 


N 
= >》 已 (oo …oi， Xx, = S; ， O41939 Meal = S; |u) 
N 
= >, P(0,0,°*-0,, X, = si lw) Plo,,, Xi+l = Sj | 0,0,°*°0,, xX, = Si, u) 


N 
= >, P(o, On°°°0,, % = S; iw) P(0,4, | oloz…o,， ad i 


Xi+l = Sj; Bb) P(x. = §; | 0;9,°°°0,, X, = Sj, pL) 


lx. = s;)P(x = s, |x, = s;) 


N 
= X 已 (oo …oi， x, = s; |w)P(o 


t+1 


= Di la,(i)a;}b,.,,, 


N 
即 Qj] (j) = » La, (i) a; | b, Ot41 


算法 : 向 前 算法 


向 前 算法 如 图 3-20 所 示 。 


t+] 
Qal j) 


图 3-20 ”向 前 算法 图 示 
输入 : 给 定 一 个 模型 hb= (A，B，r) 。 
输出 : 计算 某 一 观察 序列 O=O1，O，，…，OT 的 概率 P (Oļu) o 
Begin 


1) 初始 化 。 a, (i) =P(0,, X1 = 5S; lw) = T;b; o: 


>» 


N 
、、^“ `~ 大 入 Os. (j) = La,(i)a, |b; , Let te], l<j<n 
> iB Jai 算 。 1 È Ys Js 41 : 


3) 总 和 。 


N N 
P(O |p) = P(0,, O., °°, Or |p) = > P(0,, O,°°On, Xp = 8; |u) E > ar(i) 


=] z 三 ] 
End 
向 前 算法 的 计算 复杂 性 为 0 (N2T) 。 与 向 前 计算 的 算法 类 似 ， 还 可 以 采用 利用 向 后 算法 计算 ， 如 图 3-21 所 示 。 


首先 需要 定义 向 后 变量 。 假 设计 刻 ， 状 态 Xt=si 情 况 下 ， 模 型 输出 序列 Ot+1，.…，OT 的 概率 。 


Pail) 


图 3-21 ”向 后 算法 图 示 
B,(i) = P(O., Ono, °, Or |x = s,, pb) l<x<t<xT-l1 


B,(i) 一 户 ( OO7 |x, = Si; H) 


N 
OO Nrl = Sj |x, = 5;, p) 
j=l 


| 
2 
a 


N 
= S P(O, Op | xi = Si, X, = 5,,mM)P(%,,, = 5, | x, = s., pw) 
j=l 


t+l 9 Nie] = Sis 


N 
一 > PO EN = S75 Me = S25 u)P(O,2°* 07 | O 
j=1 


X, = Si, p) P(x, = s; | %, a Si, H) 


s 


J 


N 

= P( 0.41 | Meat = Sj» pp) P( 0,,.°% Or ER Si Bb) PX 一 u) 
=1 

N 


一 >; ajb, 0,.,P 141 (J) 
l 


i= 


NIE B,( i) = 2 a;b, 0,.,P 41 (7) 


向 后 算法 的 计算 复杂 性 ， 与 向 前 算法 相同 。 缘 为 O (NT) 。 

(2) 问题 2 

给 定 一 个 观察 序列 O=O1，O2，...，OT， 模 型 为 n= (A，B，T) ， 解 码 问题 是 如 何 寻 找 最 佳 的 状态 序列 X=X1，X2， 
ssr XTo 


X =arg maxP(X |O, u) =arg maxP(X, O |u) 
X A 


如 果 要 枚 举 所 有 的 状态 序列 ， 时 间 复 杂 度 是 O (NTD) 。 解 码 算法 和 向 前 算法 相似 ， 解 码 的 过 程 需要 定义 一 个 向 前 变量 
ôt (i) 


Ô (i) = maxP( X,X,X, =s., 0,0,0, |u) 


JANER RRAS, ABI WEB, .., CAIRAR. RA e —KRAE. U NR. 
算法 : Viterbi 算 法 

输入 : 模型 ， 观 测序 列 。 

输出 : 状态 序列 。 

Begin 

1) adele. ô (i) =7;6,5, li<N (i) =0, 1<i<N 


2) 递归 : 


ô, (J) = ma 


LX 
IN 


[8 (i)a; lbo, 2<t<T, l<j<N 


yp, (J) = arg max| 6,_, (i)a; |b; 0 ,2<St<sT, ISJSN 
1<i<N 0, 


3) ÆR: 


= 


4) 路 径 回 漳 。 Xi =P, (X41) ， t=1-1, i -2 


End 


Viterbi 算 法 的 时 间 复 杂 度 为 O (N2T) 。 


(3) 问题 3 


根据 可 观察 序列 OQ=O1，0O2，.….，OT， 初 始 的 模型 u= (A，B，T) ， 为 了 寻找 更 好 的 模型 u"= (A, B, n) ， 必 须 满足 


u" =arg maxP( 0 |u) 
u 


算法 : EM 算法 


和 输入: 可 观察 序列 O=O1，O2，…，OT， 初 始 的 模型 hb= (A, B, 7) 


n oe "= are maxP(O |u) 
输出 :上 = (A, B, z), 必须 满足 和 
Begin 


1) 初始 化 模型 参数 1g。 


2) EX RR: 根据 hold， 遍 历 所 有 可 能 的 状态 序列 ， 计 和 草 期望值。 


3) MYR: 根据 期 望 值 ， 重 估 新 的 模型 参数 hv。 


we 


A) PARA pew RAIA podo 


5) 如 果 P (Olney) -P (Olu) 三 预定 的 值 ， 训 练 结 来 。 


。 这 里 需要 优化 的 参数 有 : 初始 状态 概率 分 布 ri、 状 态 转 移 概 率 aij， 输 出 
工 标 注 的 状态 数据 ， 实 际 上 HMM 很 难 用 MLE 和 直接 估计 模型 参数 。HMM 的 参数 训练 一 般 采 用 无 监督 的 参数 学 习 万 去。 通 弟 及 用 
Baum-Welch 算 法 ( 同 前 -向 后 算法 ) 进行 参数 的 学 习 。 它 是 一 种 EM (Expectation-Maximization) 算法 的 特例 。 


符号 概率 bj，k。 由 于 缺少 人 


状态 转移 概率 ， 假 设 给 定 了 整个 观察 序列 O， 在 t 峙 刻 从 状态 s 到 状态 s 苇 移 的 概率 ， 那 么 

着 本 

根据 前 面 所 提 到 过 的 
PCO, x,=5;, Xi =s; |u) SP Oars Osiris m Si Meat =s; |u) 

=P(O giis XE Sis Xii 一 3) |) P(O,,, | 01， Me Sin Xiti 一 51 u) 
=P(0.,, %, =S; [uw)P(O,.,, % Mi. ZS} | O_,, x, =s,, w)PCO,,,, Lae =s) 
=q, (i)P(x,;1 = 3; | 0,, % =5;, w)PCO,,, ER = Sj» 0,, %, =8;, MW)B, (7) 


=q, (i i)a; bio, Ba (J) 
N N N N 

P(O |p) 一 2 2 PD, Xi = Sis Xizi =s |p) = 2d, 2a i)a; bio, Bir J) 
j=l 

= ð} | O, u) 


P(O, xy = Sis Need = S; |u) _ Q, A i) a; bio. Bai (J) 
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Y 
A, 
> 

| 
cm 
R 


E(t, J) 


P(O |u) m 
> aL, ( i) abio, Bin (7) 
p=1 jel 
Baum-Welch 算 法 图 示 如 图 3-22 所 示 。 
L ' 
O O 
—_ ° PO 
SA a b(Om1) | 
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Si Sj 
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图 3-22 Baum-Welch# 4K a 


N N 
P(O |p) = 2 > PCO, Me = Sis Mi 一 s; |u) = > Fal i) a; bio, Bist J) 


如 果 给 定 了 整个 观察 序列 O， 在 t 时 刻 ， 状 态 xt=s 的 出 现 概率 ， 则 状态 概率 为 : 


O,m) = VS é (i, j) 


j=l 


y(t) = P(x, = s; 
AAPCO, 4. =s- |g) P O 20 Orten l) 
=PCO0.., a =s; PCO: |e =e; Oe.) =e (DBD) 
P(x, =5s;,,O|u) — a, (i) B,(i) 


O,m) = P(O |p) yw CDBG) 


Pru, y,(i) = P(x, = s. = 
则 在 E 步 又 可 以 观察 到 如 下 情况 。 

y1 (i) = 初始 状态 为 s 的 概率 。 

JEK ZINEK. tB X 

t=1 = 从 状态 s 副 状态 s 苇 移 的 期 望 次 数 。 


和 -从 状态 si 出 发 的 转移 的 期 望 次 数 。 


5(0,, k)y,(i) yp Po 
2, ”= 状态 s 输 出 符号 k 的 期 望 次 数 . 


在 M 步 又 重新 评估 公式 : 


T-1 7 
E(i,j) Ealo, ky (i) 
Le = y, (1) s ij = Ea 。 D:a qJ T 
y, (i) > y, (4) 
j=] j=] 


下 面 介绍 利用 HM M 算 法 进行 词性 标注 的 过 程 。 词 性 标注 也 可 以 摘 述 为 两 个 随机 过 程 ， 一 个 是 词汇 序列 〈 记 作 : 
W=W 1, Wo, .., Wy) ， 是 可 观测 的 ; 另 一 个 是 隐藏 在 词汇 序列 之 后 的 词性 序列 ( 记 作 : T=T1，T2，…，Tn) ， 它 是 不 可 观 
测 的 。 这 两 个 过 程 符 合 HM M 的 假设 ， 所 以 可 以 对 词性 标注 建立 相应 的 隐 马 尔 可 夫 模 型 。 


比如 下 面 这 人 句 话 是 需要 标注 的 一 个 词性 序列 : “我 /rr， 正 在 /d， 撰 写 /v， 实 战 对 话机 器 人 /nz” 马 尔 可 夫 模 型 (简称: 
MM) ， 其 本 质 是 一 个 计算 条 件 概率 的 问题 。 壁 如 说 “我 正在 撰写 实战 对 话机 器 人 ”这 人 句 话 ， 如 果 需 要 计算 其 概率 ,假设 用 S 代 
表 整 个 句子 ， 则 有 如 下 公式 : 


P (S) =P (我 正在 撰写 实战 对 话机 器 人 ) 
如 果 采 用 二 元 MM ， 同 时 结合 链 乘 原理 ， 有 如 下 公式 : 


P (S) =P (我 | < ) XP (正在 | 我 ) XP 《撰写 | 正在 ) XP (实战 对 话机 器 人 | 撰写 ) XP ( </s> | 实战 对 话机 器 人 ) 


Ose .代表 自 子 开始 位 置 ， Cs》 代 表 自 子 结束 位 置 。 
因此 二 元 MM 即 等 价 于 一 个 当前 词 仪 依赖 于 紧邻 历史 词 的 条 件 概率 。 


那么 “导致 该 现象 友 生 的 原因 ”这 人 句 话 指 的 又 是 什么 呢 ? 通过 这 句 话 我 们 可 以 引入 “Emission” 这 个 概念 。 其 表示 在 词性 
标注 领域 内 某 个 具体 句子 中 的 某 个 位 置 的 词性 导致 这 个 词 出 现 概 率 ， 举 个 例子 : 对 于 “撰写 ”来 说 ， 某 个 词性 到 导致 该 词 的 出 现 
的 事件 ， 即 为 Emission， 而 该 事件 的 概率 即 为 Emission Probability， 公 式 表示 如 下 : 


P (撰写 |v) =C (撰写 v) /C (v) 
C (撰写 v) 代表 v 撰 写 同 时 出 现 的 频数 ，C (v) 代表 v 出 现 的 频数 抽象 一 层 即 为 本 质 导 致 现象 友 生 的 概率 大 小 。 


通过 上 面 的 例子 ， 我 们 发 现 这 里 有 一 个 思路 需要 转变 一 下 ， 即 对 MM 来 说 ， 这 里 指 的 是 本 质 之 间 的 MM ， 因 此 对 “词性 标 
注 ” 这 个 应 用 领域 来 说 ， 即 为 词性 之 间 的 转移 (条 件 ) 概率 ， 因 此 对 于 一 个 具体 的 切 分 结果 和 一 个 具体 的 词性 标注 结果 其 HM M 
公式 可 表示 为 : 


Q: 41, q2 1 qn 

O: 04, 02, ..., One 

这 里 Q 代 表 原 因 (Hidden) ，O 〇 代表 现象 。 由 上 述 公式 可 知 : 

P (Q) = (P (ql <s> ) XP (qilqz) XXP ( </s> qn) ) X (P (01|q1) XP (02|q2) XXP (on|qn) ) 


可 以 看 到 上 述 公 式 分 为 两 部 分 ， 前 一 部 分 为 原因 之 间 的 转移 概率 (MM) ， 后 一 部 分 为 原因 导致 现象 发 生 的 概率 ， 即 发 射 概 


因此 基于 HMM 的 词性 标注 来 襄 ， 即 是 如 何 找到 一 个 POs 路 径 使 得 P (Q) 达到 最 大 的 问题 。 为 了 解决 该 问题 ， 可 以 采用 上 
面 介绍 的 Viterbi 算 法 求解 最 优 状 态 序 列 。 下 面 介绍 一 个 实际 用 Viterbi 计 算 路 径 的 例子 ， 如 图 3-23 所 示 。 


图 3-23 ”词性 标注 示例 1 


接着 ， 分 别 计算 “希望 ”在 句 下 时 为 名 词 和 动词 的 概率 ， 如 图 3-24 所 示 。 


0.00038*0.169 副词 
Kir 名 词 
助词 


0.00186*0.191 


动词 介词 


0.00038*0.169 一 一 一 0.000005 
0.053 | 
0.000008 


0.00186*0.191 
0.027 


i 
0.000008 
代词 


图 3-25 ”词性 标注 示例 3 


0.000005 


0.000008 


0.00038*0.169 


0.00186*0.191 


图 3-26 ”词性 标注 示例 4 


同 理 ， 对 “田野 ”的 候选 词性 进行 计算 ， 并 选择 在 “的 ”为 各 个 候选 词性 时 概率 最 大 的 词性 ， 如 图 3-27 所 示 。 


0.00038*0.169 0.000005 
0.053 0.43 
0.013 | 
0.00186*0.191 0.000007 0.000008 
a 0.036 | ee 
0.000008 


0.038 a 


图 3-27 ”词性 标注 示例 5 


最 后 ， 比 较 这 些 路 径 的 概率 ， 选 择 概 率 最 大 的 一 个 词性 序列 作为 词性 标注 结果 ， 如 图 3-28 所 示 。 


().00038*0.169 


0.000005 
| 0.053 : : 


0.000008 


0.00186*0.191 


图 3-28 ”词性 标注 示例 6 


3.3 ”命名 实体 识别 


命名 实体 识别 (Named Entity Recognition, NER) ， 又 称 为 “ 专 名 识别 ”。 从 语言 分 析 的 全 过 程 来 看 ， 命 名 实体 识别 属 
于 词法 分 析 中 的 未 登录 词 识别 的 学 畴 。 命 名 实体 是 未 登录 词 中 数量 最 多 、 识 别 难 度 最 大 、 对 分 词 效果 影响 最 大 的 问题 。 


命名 实体 是 命名 实体 识别 的 研究 主体 ， 一 般 包 括 3 大 类 (实体 类 、 时 间 类 和 数字 类 ) 和 7 小 类 (和 人 名、 地名、 机 构 名 、 时 
间 、 日 期 、 贷 币 和 百分比 ) 命名 实体 。 在 实际 研究 中 ， 命 名 实体 的 确切 合 义 需要 根据 具体 应 用 来 确定 。 由 于 数量 、 时 间 、 日 期 、 
货币 等 实体 识别 通 弟 可 以 采用 模式 匹配 的 方式 获得 较 好 的 识别 效果 ， 相 比 之 下 ， 人 人 名、 地名、 机构 名 较 复 杂 ， 因 此 近年 来 的 研究 
主要 以 这 几 种 实体 为 主 。 同 时 生物 领域 的 实体 识别 也 比较 活跃 。 这 些 实体 中 以 机 构 名 和 生物 实体 识别 难度 最 大 ， 普 断 存 在 内 套 和 


缩写 的 识别 问题 。 


评判 一 个 命名 实体 是 否 被 正确 识别 包括 以 下 两 个 方面 : 第 一 ， 实 体 的 边界 是 否 正确 ; 第 二 ， 实 体 的 类 型 是 否 标 注 正确 。 主 要 
错误 类 型 有 以 下 两 种 : 第 一 ， 文 本 正确 ， 实 体 类 型 可 能 错误 ; 第 二 ， 文 本 边界 错误 ， 而 其 包含 的 主要 实体 词 和 词类 标记 可 能 
确 。 


命名 实体 识别 万 法 主要 分 为 基于 规则 和 词典 的 万 法 、 基 于 统计 的 方法 和 混合 算法 。 基 于 规则 的 方法 基于 规则 模版 ， 选 用 关键 
字 、 标 点 符号 、 位 置 词 等 特征 ， 通 过 模式 和 字符 串 匹 配 实现 命名 实体 识别 。 系 统 实 现代 价 高 ， 可 移植 性 存在 一 定 的 限制 。 基 于 统 
计 的 方法 根据 所 用 机 器 学 习 方 法 的 不 同 ， 可 以 划分 为 有 监督 的 学 习 方 法 、 半 监督 的 学 习 方法 、 无 监督 的 学 习 方 法 和 混合 方法 。 其 
中 ， 有 监督 算法 包括 最 大 炳 模型 、 支 持 向 量 机 、 条 件 随 机 场 、 隐 马尔 可 夫 模 型 等 。 基 于 统计 的 万 法 对 特征 选取 的 要 求 比较 高 ， 需 
要 从 文本 中 选择 能 有 效 反 应 实体 特性 的 特征 集合 。 有 关 特 征 包括 单词 特征 、 上 下 文 特征 、 停 用 词 特征 、 核 心 词 特征 、 语 义 特征 
等 ， 还 可 以 将 特征 进行 组 合 。 混 合 方法 则 包括 ， 统 计 方法 混合 、 规 则 词典 与 机 器 学 习 融 合 、 各 类 模型 算法 融合 等 。 


因为 基于 规则 和 匹配 的 命名 实体 识别 相对 简单 ， 这 里 着 重 讲解 通过 统计 模型 进行 命名 实体 识别 的 例子 。 


3.3.1 ”利用 条 件 随 机 场 模型 进行 命名 实体 识别 


第 1 草 中 已 经 详细 讲解 了 条 件 随 机 场 算 法 ， 这 里 主要 介绍 一 下 该 算法 在 命名 实体 识别 中 的 应 用 。 


特 先 ， 对 训练 语 料 进 行 标记 。 标 注 集 可 以 采用 B，1，O 的 方式 进行 标注 ， 也 可 以 采用 B，1，E，3，O 的 方式 进行 标注 。 如 表 
3-2 所 示 。 


表 3-2 ”CRF 标注 标记 说 明 


标 注 a X 
B 当前 词 是 相应 命名 实体 的 开始 
I 当前 词 是 相应 命名 实体 的 内 部 
0 当前 词 不 是 命名 实体 
E 当前 词 是 相应 命名 实体 的 结尾 
S 当前 词 是 独立 的 命名 实体 


从 表 3-2 中 可 以 看 出 ， 其 类 似 于 分 词 的 标记 方式 ， 命 名 实体 识别 可 以 增加 一 个 状态 O， 表 示 该 字 不 是 实体 词 。 对 于 实体 词 ， 
标注 实体 类 别 。 比 如 : “ 李 明 参 观 天 安 门 ”， 可 以 标记 为 ，“ 李 |B_PER 明 |E_PER 参 |O 观 |O 天 |B_LOC 安 |M_LOC 门 |E_LOC'"” 。 


我 们 可 以 对 1998 年 1 月 份 的 《人 民 日 报 》 语 料 中 进行 了 词性 标注 ， 通 过 将 相应 的 词性 转化 为 已 定义 的 标注 集束 可 以 得 到 我 们 
需要 的 语 料 。 在 语 料 中 一 些 复合 的 地 名 和 | 组织 名 用 ”[] ”进行 了 标注 ， 如: “” [中 国 /ns 政府 /n] nt” 40 ”[ 中 国 /ns 
际 /n 广播 /vn 电台 /n] /nt" , 我 们 可 以 清楚 地 看 到 它们 的 内 部 结构 ， 这 有 利于 我 们 识别 复合 地 名 和 组 织 名 。 下 面 举例 说 明 
对 语 料 的 转换 。 


如 原 标注 语 料 为 : 

萨 维 /nr 对 /p 最 近 /t 发 生 /v WE/n 的 /u 灾区 /n 人 民 /n 表示 /Vv 奈 问 /v 

可 以 转换 为 : 

萨 维 /S-PER 对 /O R/O 发 生 /O 〇 W/O 的 /O 灾区/O 人 民 /O 〇 表示 /OO 奈 问 /O 


由 于 命名 实体 的 构成 具有 很 强 的 随意 性 ， 仪 依靠 对 命名 实体 本 身 结构 和 用 字 的 分 析 很 难 取得 较 好 的 识别 效果 ， 因 此 ， 我 们 需 
要 移 分 挖掘 命名 实体 中 上 下 文 的 相关 信息 ， 由 前 文中 摘 述 的 内 容 可 知 ， 条 件 随机 场 能够 表达 长 距离 的 上 下 文 依赖 信息 ， 并 会 有 效 
地 将 各 种 相关 或 不 相关 的 信息 融合 在 一 起 。 


接 下 来 ， 构 建 特征 集合 。 条 件 随 机 场 的 特征 是 由 特征 模板 匹配 训练 语 料 产 生 的 。 因 此 ， 扫 描 语 料 中 的 每 一 个 词 ， 循 环 匹 配 模 
板 库 中 的 每 一 个 模板 ， 将 匹配 到 的 特征 加 入 到 特征 集 ， 这 样 束 构 成 了 条 件 随机 场 模 型 的 特征 集 。 


具体 的 算法 摘 述 如 下 所 示 。 
算法 : 特征 生成 算法 


输入 : 训练 语 料 ， 特 征 模 板 。 


输出 : 特征 集 。 
Begin 
1) 在 模板 库 中 顺序 取 一 个 模板 工 ; 


2) 顺序 读 取 语料库 中 的 一 个 词 W， 将 当前 模板 T 和 当前 词 色 进行 匹配 ， 看 生成 的 模板 是 否 在 模板 库 中 ， 若 已 经 存在 ， 则 将 其 
计数 加 1， 否 则 将 新 生成 的 特征 加 入 特征 集 ; 


3) 若 W 是 训练 语 料 中 的 后 一 个 词 ， 则 转 4) ， 否 则 转 2) ; 
4) 若是 模板 库 中 的 后 一 个 模板 ， 则 转 5) ， 否 则 转 1) ; 
5) 算法 结束 。 

End 


这 里 需要 说 明 的 是 “上 下 文 ”。 它 主要 指 的 是 包含 当前 词 在 内 的 及 其 前 后 铬 干 个 词 所 组 成 的 观察 窗口 。 理 论 上 ， 窗 口 越 大 ， 
能 够 利用 的 上 下 文 信息 残 越 丰富 ， 但 是 窗口 开 的 过 大 所 选择 的 特征 就 会 急剧 增加 ， 除 了 会 严重 影响 运行 效率 ， 也 会 产生 过 拟 合 现 
象 ， 而 窗口 过 小 ， 特 征 利用 的 束 不 够 充分 ， 会 由 于 过 于 们 时 而 去 失重 要 的 上 下 文 信息 ， 进 而 影响 识别 效果 。 根 据 分 析 ， 一 般 选 择 
长 度 为 2 的 窗口 ， 即 观察 包含 当前 词 在 内 以 及 其 前 后 各 两 个 词 。 


这 里 举 一 个 特征 模板 的 例子 。 如 : 在 短语 “微软 亚洲 研究 院 ” 中 ， 当 前 词 为 “研究 院 ” 时 ， 可 以 实例 化 模板 为 : 
CurrentTag (-2) /CurrentTag (-1) /CurrentPOS (0) 

(当前 词 左 边 第 二 个 词 标记 和 左边 第 一 个 词 的 标记 以 及 当前 词 词性 ) 

那么 上 面 的 短语 就 可 以 表示 成 如 下 的 二 元 国 数 。 


( if currentTag( -2) =“ 组织 4 
T 地 名 9 


and currentPos(0) = 动词 


and y = location 


1} and currentTag( — 1 ) 


f(x, y) = 


0, else 


3.3.2 ”命名 实体 识别 在 对 话 系 统 中 的 作用 


命名 实体 识别 在 对 话 系统 中 起 着 非常 重要 的 作用 。 在 对 话 系 统 中 有 时 根据 对 话 场景 可 能 会 被 问 到 一 些 实体 名 ,诸如 人 名 、 地 
点 、 机 构 名 等 。 也 有 可 能 是 一 些 抽 象 名 词 ， 如 植物 名 称 、 药 品名 称 。 还 有 可 能 是 一 些 数 字 、 物 品 的 尺寸 、 规 格 等 。 如 果 想 设计 一 
个 还 不 错 的 对 话 系统 则 必须 在 专 名 识别 部 分 下 一 定 功 夫 。 


前 文 已 经 介绍 了 一 些 实用 的 命名 实体 识别 方法 。 想 要 在 实践 中 对 于 对 话 系统 灵活 应 用 上 面 介 绍 的 一 些 基本 方法 ， 还 是 需要 大 


量 的 经 验 和 滨 试 的 。 


3.4 ”序列 标注 模型 


序列 标注 问题 是 指 给 定 输 入 序列 ， 预 测 和 输入 序列 对 应 的 输出 标签 序 列 。 序 列 标注 问题 是 自然 语言 处 理 领 域 基本 问题 之 一 。 
序列 标注 问题 可 以 分 为 两 类 : 单 序 列 标注 和 多 序列 标注 。 单 序 刘 标注 问题 是 指 预 测 一 个 输出 标签 序 列 ， 多 序列 标注 是 指 预 测 多 个 
输出 标签 序列 。 


单 序列 标注 常用 的 方法 包括 隐 马 尔 可 夫 模 型 、 条 件 随 机 场 模 型 、 最 硕 模型 等 。 隐 马尔 可 夫 模 型 将 序列 标注 问题 抽象 成 为 马 
尔 可 夫 链 ， 定 义 观 察 序 列 和 对 应 的 标注 序列 的 联合 概率 分 布 。 由 于 在 实际 计算 中 很 难 列举 所 有 可 能 的 观察 序列 ， 马 尔 可 夫 模 型 假 
设 每 个 元 素 相互 独立 。 这 一 假设 使 得 HM M 很 难 使 用 复杂 特征 ， 更 适合 小 数据 集 。 而 最 大 炳 模型 可 以 使 用 任意 复杂 的 特征 。 最 大 
模 型 的 优势 在 于 能 够 获得 所 有 满足 约束 条 件 的 模型 中 信息 最 大 的 模型 ， 能 够 灵活 地 设置 约束 条 件 调节 模型 的 拟 合 度 ， 解 决 参 
数 平滑 问题 。 然 而 最 大 炳 模型 对 于 特征 的 强度 缺少 记录 ， 同 时 算法 的 收敛 速度 较 慢 ， 并 有 目 数 据 稀疏 问题 较 严 重 。 作 为 分 类 模型 ， 
隐 马 尔 可 夫 模 型 和 最 大 炳 模型 都 只 对 某 个 词 进行 单独 分 类 ， 没 有 利用 标记 之 间 的 关系 。CRF 模 型 能 够 充分 利用 上 下 文 信息 作为 特 
征 ， 能 够 使 用 复杂 、 重 又 、 非 独立 的 特征 进行 训练 ， 具 有 很 强 的 推理 能 力 。 但 是 ，CRF 模 型 的 性 能 受 特征 选择 和 优化 的 影响 较 
大 ， 并 且 训练 时 间 长 、 获 得 模型 大 。[1 
常用 的 多 序列 标注 问题 可 以 采用 级 联 学 习 的 方法 。 级 联 学 习 是 将 多 序列 标注 问题 看 作 多 个 单 序列 标注 问题 逐一 进行 处 理 ， 还 
可 以 将 低层 次 单 序列 标注 问题 的 输出 作为 高 层次 单 序 列 标注 问题 的 输入 。 级 联 学 习 方法 可 以 降低 解决 整个 多 序列 标注 问题 的 计算 
复杂 度 ， 但 是 同时 也 存在 缺点 。 
联合 学 习 方 法 是 指 对 多 个 自然 语言 处 理 问题 同时 进行 处 理 的 方法 ， 目 前 联合 学 习 方法 已 经 被 应 用 于 多 序列 标注 问题 处 理 中 。 
前 文中 讲 到 的 分 词 、 词 性 标注 、 命 名 实体 名 识别 等 都 可 以 归属 为 单 序列 标注 问题 ， 利 用 联合 学 习 的 方法 可 以 解决 多 序列 标注 问 
题 。 如 图 3-29 所 示 。 
N 元 文法 
隐 马 尔 可 夫 模 型 
条 件 随 机 场 模型 


最 大 燃 模 型 


单 序 列 标注 单 序 列 慰 注 的 方法 


厅 列 标注 


统一 模型 联合 学 习 
多 序列 标注 多 序列 标注 的 方法 重 排序 联合 学 习 
多 任务 学 习 


图 3-29 ”序列 标注 方法 


[1] http://www.cnblogs.com/ooon/p/5829341.html 


35 ”本 童 小 结 


本 草 主要 介绍 了 目 然 语言 处 理 中 3 个 最 基础 的 功能 一 一 分 词 、 词 性 标注 和 命名 实体 识别 。 通 过 选用 一 个 具体 的 算法 来 讲解 每 
一 个 应 用 ， 点 明了 其 间 的 区 别 与 联系 ， 以 及 它们 在 对 话 系 统 中 所 起 的 作用 。 最 后 对 3 种 功能 的 本 质 进行 归纳 。 


第 4 草 文本 分 析 


文本 分 析 是 目 然 语 言 处 理 的 基础 ， 将 文本 特征 进行 量化 表示 以 对 其 中 的 信息 作 进一步 的 分 析 和 处 理 。 


本 章 主要 介绍 文本 特征 抽取 、 文 本 分 类 、 文 本 聚 类 上 的 一 些 基 本 算法 模型 。 这 学 算 法 模型 不 仅 适 用 于 对 话 系统 ， 同 时 也 适用 
于 更 多 目 然 语言 处 理 的 应 用 场景 。 


4.1 关键 词 抽 取 


文本 处 理 首 先 需 要 将 文档 数据 转化 为 数据 格式 ， 最 经 典 的 文本 表示 模型 就 是 向 量 空间 模型 (Vector Space 
Model, VSM) 。 模 型 的 主要 思想 是 将 文本 转化 为 定义 在 向 量 空间 中 的 向 量 ， 从 而 将 对 文本 的 处 理 转化 为 对 向 量 的 处 理 。 在 这 
一 模型 中 ， 文 本 空间 可 以 对 应 为 一 个 向 量 空间 ， 这 个 向 量 空间 由 一 组 点 积 为 零 的 向 量 组 成 。 文 档 集 可 以 用 文档 集 和 矩阵 表示 ， 和 矩阵 
中 水 平方 向 上 的 数据 表示 文档 数目 ， 和 矩 阵 中 竖 直 方向 上 的 数据 表示 词 数 。 


经 过 VSM 表 示 和 分 词 处 理 得 到 的 文档 可 能 具有 极 大 的 特征 维度 ， 甚 至 达到 成 干 上 万 的 程度 。 文 档 的 特征 向 量 是 一 个 维度 很 
大 并 且 较 为 稀 足 的 矩阵 ， 在 后 续 的 计算 过 程 中 会 有 很 多 问题 。 因 此 ， 对 文档 的 特征 向 量 需 要 进行 再 次 的 筛 选 ， 将 特征 空间 的 维度 
降低 。 这 种 做 法 能 够 以 更 低 的 维度 更 精确 地 显示 文本 特征 ， 提 高 文本 挖掘 效率 。 

天 键 词 抽取 技术 在 对 语系 统 中 经 冲 会 使 用 到 。 在 对 语 中 ， 如 果 我 们 连 一 句 话 的 天 键 舍 义 都 无 法 提取 到 ， 那 么 对 话 理 解 融 会 产 
生 障 碍 。 下 面 介 绍 两 种 比较 经 典 的 关键 词 抽取 技术 TF-IDF 和 Text Rank, 


4.1.1 词 频 - 廊 文档 频次 算法 


词 频 - 逆 文 档 频 次 算法 (Term Frequency-Inverse Document Frequency, TF-IDF) 是 一 种 统计 方法 ， 用 来 进行 字 或 词 相 
对 于 一 个 文件 集 或 一 个 语料库 其 中 一 份 文件 的 重要 程度 的 评估 。 一 个 重要 词语 对 文章 的 重要 程度 可 以 通过 统计 该 词语 在 文档 中 表 
达能 力 以 及 它 对 整体 信息 的 贡献 所 决定 。 

TF-IDF 的 主要 理论 基础 是 ， 一 个 字 或 词 假如 在 文件 中 呈现 的 次 数 越 多 ， 那 么 这 个 词语 就 越 天 键 ， 即 重要 性 与 在 语 料 中 呈现 
的 频次 呈正 比例 关系 。 然 而 ， 如 果 一 个 字 或 词 在 语料库 中 出 现 的 次 数 也 很 多 ， 那 么 其 重要 性 则 会 下 降 ， 即 重要 性 与 在 语 料 中 出 现 
的 次 数 成 有 反比。 即 : 


其 中 ，tfi 指 特征 项 tj 在 文档 dj 中 出 现 的 次 数 ，idf 指 出 现 特征 t 的 文档 倒数 。N 表 示 总 文档 数 ，N 指 出 现 特征 项 t 的 文档 数 。TF 


表示 字 词 在 指定 语 料 中 呈现 的 数目 或 频率 。IDF 用 来 衡量 词 条 类 别 的 区 分 能 力 。1DF 越 大 ， 说 明 词 语 束 越 能 与 其 他 词语 分 开 来 。 


在 已 若 的 文档 集中 ，TF 的 计算 是 指 特征 值 词语 在 文档 集中 出 现 的 频率 为 Ni， 为 万 便 在 不 同 长 度 文档 下 进行 统计 ， 对 词语 的 
频率 计算 进行 了 归 一 化 处 理 。 如 式 (4.1) 所 示 。 


il i | 
| e (4. 1) 
dN; j 
其 中 ni 表示 词 在 文档 中 的 出 现 频次 ， 在 不 同 长 度 的 文档 中 高 频次 的 词 出 现 的 概率 也 相应 增 大 ， 为 了 解决 这 个 问题 需要 对 词 
频 进 行 归 一 化 。 式 (4.2) 中 的 分 母 就 是 统计 了 文档 中 每 个 词 出 现 次 数 的 总 和 ， 同 时 对 每 个 词 进行 了 归 一 化 处 理 。 


1DF 是 一 个 词语 在 所 有 的 文档 中 重要 性 的 体现 。 即 : 
idf, = log( N/N.) = log 


其 中 |D| 为 文档 集合 的 总 数 ，|Dj| 为 文档 集中 出 现 词 :的 文档 数量 。 分 母 加 1 是 采用 了 拉 普 拉 斯 平滑 ， 这 样 做 是 避免 有 部 分 新 的 
词 没有 在 语料库 中 出 现 过 而 使 分 母 为 0 的 情况 出 现 。 


TF-IDF 作 为 特征 提取 的 算法 表现 十 分 优秀 ， 但 并 不 适合 所 有 的 情况 。 比 如 数据 集 出 现 严重 的 偶 斜 ， 类 间 、 类 内 数据 分 布 出 
现 严 重 偏 奉 。 对 此 ，TF-IDF 的 计算 方法 也 会 有 一 些 变 化 。 这 里 不 再 展开 。 


传统 的 TF-1DF 对 于 聊天 文本 效果 并 不 是 很 好 。 经 研究 发 现 TF-1DF 对 大 于 200 个 词 的 文本 效果 较 理 想 ， 而 聊天 文本 每 次 输入 
都 是 很 简短 的 文本 。 对 于 这 种 情况 我 们 也 是 有 解决 办 法 的 。 可 以 按照 主题 分 类 缓 仓 一 定量 的 文本 ， 再 使 用 TF-IDF 算 法 来 提取 相 
应 的 天 键 词 和 该 算法 处 理 聊 天 语 料 的 处 理 能 力 。 


下 面 举 一 个 TF-IDF 应 用 的 实际 例子 。 

问题 : 我 们 使 用 TF-IDF 对 下 面 文本 当中 “计算 机 ”一 词 的 重要 程度 进行 评估 。 

文本 1: 和 鼠标 左 键 加 键盘 Delte 重新 启动 计算 机 ; 

` 文本 2: 单 击 鼠标 右键 显示 计算 机 RH 菜单 ; 

` 文本 3: 触摸 显示 器 代替 了 鼠标 BH. 

其 中 ，“ 计 算 机 ”在 整个 语 料 当 中 出 现 了 2 次 ， 语 料 当 中 所 有 词 出 现 次 数 的 总 和 为 21 次 。 所 以 ，“ 计 算 机 一 词 的 TF 值 为 


语 料 当 中 文本 的 数目 为 3 条 ， 其 中 有 “计算 机 ”一 词 出 现 的 文本 数目 为 2 条 。 因 此 ，“ 计 算 机 ”一 词 的 IDF 值 为 


ie 人 > 上] = log2 


2 
所 以 ，“ 计 算 机 ”一 词 在 以 上 语 料 当中 的 TD-IDF 值 为 21 28 50. 0786 


4.1.2 Text Rank 


Text Rank 是 一 种 基于 图 模型 的 提取 关键 词 的 方法 。Text Rank 算 法 源 自 于 PageRank 算 法 ，PageRank 最 初 是 用 于 Google 
网 页 排名 ， 来 体现 网 页 的 相关 性 和 重要 性 。PageRank 通 过 互联 网 中 的 超 链接 天 系 来 确定 网 页 的 排名 ， 基 于 投票 思想 设计 了 如 下 


“Tl. 


S( V.) = (1 -d)+d*x >》 ! 


JE hV; | out( V, ) 


其 中 ，V 束 示 某 个 网 页，V 表 示 链 接 到 Vi 的 网 页 ，in (Vi) 表示 所 有 链接 到 Vi 的 网 页 的 集合 ，out (V) 表示 网 页 Vj 中 的 链接 


指向 的 网 页 的 集合 ，S (Vi) 是 网 页 的 PR 值 ，d 表 示 阻 尼 系 数 。 


S(V,) 


Text Rank 由 PageRank 改 进而 来 ， 是 一 种 基于 图 的 文本 排序 算法 。Text Rank 将 文档 分 割 成 若干 单元 并 建立 图 模型 ， 利 用 
及 票 的 机 制 对 文档 中 单元 的 重要 性 进行 排序 。 它 最 大 的 特 氮 融 是 脱离 了 语料库 束缚 ， 可 以 仅 对 单 篇 文档 进行 分 析 ， 不 需要 在 语 料 
库 全 集 上 进行 训练 。Text Rank 的 应 用 场景 更 适合 对 话 系统 。 我 们 可 以 将 多 轮 对 话 过 程 中 产生 的 文字 内 容 看 作 是 一 篇 文档 ， 并 在 
该 文档 中 提取 一 些 天 键 的 词语 。Text Rank 算 法 最 早 应 用 于 文档 目 动 摘要 ， 这 种 基于 句子 维度 的 分 析 ， 往 往 更 适用 于 对 话 系 统 的 


WS(V,) =(1-d) +d* Sy onys —WS(V,) (4.2) 


È Veo t(V;) W jk 


式 (4.2) EDENNEEN, GUNMA A AAAF OFE. Ad AREA, AN 
值 为 0.85， 表 示 图 中 某 一 点 指向 其 他 任意 点 的 概率 ， 取 值 学 围 是 0 到 1。 人 在 对 话 系统 中 ， 几 轮 的 对 话 可 以 结合 起 来 看 作 是 一 篇 语 
义 上 的 相关 文档 。 所 以 使 用 Text Rank 进 行 关键 词 的 提取 还 是 起 到 一 定 作 用 的 。 


Text Rank 进 行 天 键 词 提 取 的 步骤 如 图 4-1 所 示 。 


1. 将 给 定 文档 按照 句子 进行 分 割 。 


2. 将 句子 进行 分 词 处 理 和 过 滤 ， 得 到 关键 词 候选 集 。 


3. 构建 候选 关键 词 图 ， 图 的 市 点 为 候选 关键 词 ， 边 为 市 点 在 指定 大 小 窗口 的 共 现 关系 。 


4. 根据 公式 达 代 计算 名 个 市 点 的 权重 ， 直 至 收 化 。 


5. 将 方 点 按照 权重 进行 倒 排 ,得 到 关键 词 重 要 性 的 排序 。 


6. 在 句子 中 标注 关键 词 出 现 的 位 置 ， 奋 出 现 相 邻 ， 则 形成 关键 词组 。 


图 4-1 Text Rank 提 取 关 键 词 步骤 


4.2 文本 分 类 


文本 分 类 技术 是 信息 检索 和 数据 挖掘 的 重要 基础 ， 很 多 基于 文本 数据 的 研究 都 可 以 使 用 文本 分 类 解决 ， 从 而 转化 成 为 对 文本 
分 类 的 研究 。 在 对 话 系统 中 天 于 文本 分 类 的 应 用 场景 也 有 很 多 ， 比 如 探测 对 话 者 的 意图 ， 猜 测 对 话 者 的 情绪 状态 等 。 本 节 主 要 介 
绍 几 个 在 文本 领域 中 比较 单 用 的 分 类 算法 。 


4.2.1 ”由 时 斯 文本 分 类 模型 


贝 叶 斯 公式 由 严 国 数学 家 贝 叶 斯 提出 ， 与 经 典 频率 学 并 列 为 现代 统计 学 中 的 两 大 学 派 。 贝 叶 斯 数据 分 析 是 建立 在 先 验 分 布 的 
基础 上 ， 根 据 数据 特征 形成 的 经 验 分 布 。 基 于 贝 叶 斯 万 法 的 分 类 器 有 较 强 的 模型 表示 、 学 习 和 推理 能 力 ， 在 大 规模 数据 集中 具有 
了 较 高 的 准确 率 和 速度 。 


贝 叶 斯 理论 搬 述 了 一 种 以 某 一 事件 过 去 友 生 的 频率 为 基础 对 这 一 事件 友 生 的 概率 进行 估计 的 方法 。 设 和 A，B 两 个 随机 事件 ， 


P(A, B) 
P(A) S):= 
在 已 知事 件 B 发 生 的 情况 下 ， 事 件 A 发 生 的 概率 称 为 条 件 概率 P (AB), EMA P(B) 。 贝 叶 斯 定理 冒 在 描述 两 个 条 
P(A |B) =P 4: 8) pog |a) -24 BD P(A | B) * P(B) 
件 概率 的 关系 ， 因 为 P(B) ” P(A) ， 所 以 这 里 P (BJA) = PA) 


贝 叶 斯 定理 前 述 了 一 种 概率 假设 的 计算 方法 ， 它 在 对 移 验 概率 进行 假设 的 前 提 下 ， 对 不 同样 本 在 给 定 先 验 概 率 前 提 下 的 概率 
进行 仔细 查看 。 


贝 叶 斯 分 类 模型 以 统计 方法 为 基础 ， 将 贝 叶 斯 理论 作为 基本 理论 ， 把 分 类 问题 看 作 是 一 种 依据 正确 率 的 不 确定 决策 问题 。 分 
类 器 通过 归纳 训练 集 的 属性 对 未 知 类 别 的 数据 对 象 进 行 分 类 。 


贝 叶 斯 分 类 的 特点 包括 : 
1) 选择 后 验 概率 最 大 的 类 别 作 为 样本 分 类 。 
2) 使 用 数据 的 所 有 特征 进行 分 类 。 
3) 对 于 分 类 数据 对 象 的 离散 、 连 续 或 是 混合 特征 都 适用 。 
在 机 器 学 习 里 面 ， 可 以 将 上 面 的 公式 写成 如 下 形式 ， 设 X，Y 是 两 个 随机 变量 ， 那 么 
P(Y |X) * P(X) 
P(Y) 


HAP (X) 为 先 验 概率 ，P (XY) 为 后 验 概率 ，P (YX) 为 条 件 概率 。 由 式 (4.3) 可 知 ， 后 验 概 率 可 以 由 条 件 概率 和 先 验 


概率 获得 。 


P(X|Y) = (4.3) 


裤 素 贝 叶 斯 对 条 件 概 率 做 出 条 件 独立 性 假设 ， 该 假设 使 朴素 贝 叶 斯 得 以 此 名 ， 即 条 件 独立 性 假设 如 下 所 示 。 
(1) (1) (n) (n) (7) (J) 
P(Y|X) = P(Y? =y, =, Y” =y” |X) = TP POY =y” |X) 
J=] 
ARTERE FAE KASER RE PARRA, ARNS, (SSRIS 
FER SORIA, 


对 于 条 件 概 率 和 先 验 概率 的 学 习 ， 可 以 应 用 极 大 似 然 估 计 法 进行 估计 相应 的 概率 ， 先 验 概率 P (Xi=ck) 的 极 大 似 然 估计 ， 
如 下 所 示 。 


7 T 
i i 
| 

上 


条 件 概率 P (YIX) 的 极 大 似 然 估计 ， 如 下 所 示 。 


贝 叶 斯 分 类 模型 残 以 此 为 基础 产生 的 。 假 设 用 户 输入 的 文字 信息 用 3 表示，93 通 过 词 余 模型 可 以 看 成 是 由 多 个 词组 成 ， 即 ?= 
{Term1，Term2，Term3，.…，Termi;，i<n}, 假设 一 共有 c 类 样本 ， 那 需要 计算 的 是 对 于 每 一 个 类 别 P (clS) 的 值 。 这 个 值 难以 


直接 计算 ， 所 以 我 们 根据 贝 叶 斯 公式 就 可 以 改写 : 

© P(S|ce)*xPl(e) 

P(e |S) = ees 
P(S) 


在 这 里 P (S) 是 一 个 常数 ， 则 上 面 的 这 个 公式 就 可 以 写成 式 (4.4) 。 
P(c|S)«P(S|c) * P(e) (4.4) 


在 式 (4.4) R, P (c) 可 以 通过 对 训练 集中 的 各 个 类 别 的 语 料 进行 统计 得 到 。 而 P (Slc) WiTA ADEA, X 
一 条 件 概率 是 类 别 c 在 文本 s 中 所 有 词 Term1、Term2，…，Termi 上 的 联合 概率 。 为 了 方便 我 们 对 此 联合 概率 进行 估计 和 计算 ， 
假设 对 于 已 知 类 别 ， 所 有 词 相互 独立 。 基 于 这 一 假设 ，P (Sic) 可 以 写作 P (Term1|c) *P (Term2|c) *...*P (Termilc) 。 


用 这 样 的 万 式 可 以 计算 出 文本 对 于 每 一 个 类 别 的 后 验 概 率 ， 选 取 后 验 概率 最 大 的 类 别 作 为 文本 的 分 类 即 可 。 


4.2.2 ” 决 肛 例文 本 分 类 模型 


决策 树 (Decision Tree) 是 一 种 第 见 的 机 器 学 习 亡 法 ， 具 有 清晰 透明 、 可 解释 性 强 的 特点 。 决 委 树 是 一 棵 树 ， 根 节 点 表示 
整个 样本 空间 ， 内 部 结 点 表示 对 某 个 单一 变量 的 测试 ， 叶 节点 则 表示 某 一 类 别 。 从 根 节 点 到 叶 世 点 的 路 径 对 应 了 一 个 判定 测试 序 
5). 


决策 树 需 要 通过 训练 集 生 成 ， 每 个 结 点 生成 过 程 如 图 4-2 所 示 。 


. 知 当 前 节点 上 的 样本 属于 同一 类 别 ， 则 标记 此 节点 为 此 类 别 的 叶子 节点 。| 


.看 当前 节点 上 样本 的 变量 取 值 相同 ， 则 标记 此 贡 点 为 叶子 古 点 ， 
r 


所 类 列 为 样本 类 列 中 数量 最 大 的 类 列 。 


决策 树 


T, EPR EERIE RIE, EKAR TI AS o 


4. FA FRAP ER ee AE A o 


图 4-2 ”决策 树 生成 过 程 


在 决策 树 节点 最 佳 特 征 的 选择 上 ， 一般 根 据 信息 : 
C4.5、CART。 


Bi 


i, AREAN A See TE, WMA A RRA AIDS. 


BXSam, BCRMABURAH ONS. Heke VMARELNWES, MRA, MEV SSI MAREE. 
FAT OARS SSS XA AY BBLS ASME. (SUSAR OAS IEXAES AES (ASME EE 
EE, eT RAGA BESET eS SASE. Al, ERER, TAWA ES 
ifm, GRE mANTIAR Bie. RISANG HESE, ESANS EAA. A, 1 
BIEMA, SORAR, DRA TTI RETIR. 


信息 增益 的 算法 : 
输入 : 训练 数据 集 D 和 特征 A。 
输出 : 特征 和 对 训练 数 据 集 D 的 信息 增 蕉 g (D, A). 


1) 计算 数据 集 D 的 经 验 精 H (D) 


Kal, G] 
a |p| œ |p] 


2) RREAN AES DANZA SAH (D, A) 
n D, | n D, k D, | D, | 


H(D|A)= $ THD) =- ¥ mr} 一 low Te 
(D |A) 之 D) (D;) L DT 这 Dl > 1D,| 


H(D) =- 


3) 计算 信息 增益 
g (D, A) =H (D) -H (DIA) 


Am, AREENA FANERA IRH E II TT RLRHIDR. JIA EANA EREN ARAE, Fy 


以 以 信息 增 荔 率 为 特征 筛选 的 标准 。 同 样 ， 信 息 增益 率 越 大 ， 分 类 结果 越 好 。 信 息 增益 率 表 示 特 征 A 对 训练 数据 集 D 的 信息 增 蔡 
比 gR (D, A) 定义 为 信息 增益 g (D, A) 与 训练 数据 集 D 关 于 特征 A 的 值 的 粹 HA(D) 之 比 ， 如 下 陈 所 示 。 


_g(D, A) 
gr(D, A) = H, (万 ) 


针对 信息 增益 和 信息 增益 率 ， 决 策 树 的 生成 算法 主要 包括 1D3 算 法 和 C4.5 算 法 。1D3 在 决策 树 节 点 上 使 用 信息 增 荔 作为 选择 


特征 的 准则 ， 弟 上 归 构 建 决策 树 。 具 体 万 法 : 从 根 节点 出 友 ， 计 算 三 点 所 有 特征 的 信息 增 葵 ， 选 择 最 大 的 特征 作为 三 点 特 征 ， 根 据 
节点 不 同 的 取 值 继续 建立 子 忆 点， 再 对 子 节操 递归 调用 上 述 方法 ， 直 人 至 完成 决策 树 的 构建 。C4.5 算 法 在 生成 决策 树 的 过 程 中 ， 


特征 选择 采用 信息 增益 率 作为 准则 。 


由 于 决策 树 在 训练 过 程 中 会 不 断 进行 节操 划分 ， 可 能 出 现 过 拟 合 现象 ， 需 要 对 决策 树 进行 剖 校 。 决 策 树 的 前 枝 一般 通过 极 小 
化 整体 的 损失 立 数 来 实现 。 决 策 树 前 村 的 基本 策略 分 为 预 况 校 和 后 剪 校 。 预 竞 术 是 指 在 决策 树 的 古 点 生成 时 进行 预 佑 ， 若 节点 划 


分 无 法 市 来 泛 化 能 力 的 提升 ， 则 停止 划分 并 标记 为 叶 节 点 。 后 剪 枝 是 指 在 决策 树 生成 之 后 ， 使 用 训练 集 目 底 向 上 地 对 决策 树 的 内 
部 书 点 进行 评估 ， 若 将 内 部 书 点 蔡 换 为 叶 忆 点 能 够 提升 决策 树 的 泛 化 能 力 ， 则 将 其 标记 为 叶 忆 点。 


藻 想 得 到 泛 化 能 力 更 强 的 模型 ， 可 以 构建 多 个 相互 独立 的 决策 树 ， 将 其 进行 结合 。 随 机 森林 (Random Forest) 束 是 一 种 
以 决策 树 为 基础 的 集成 学 习 方法 。 算 法 基于 Bagging 思 想 ， 以 随机 子 空间 技术 作为 广 持 ， 由 决策 树 基 本 构成 。 随 机 森林 中 每 一 棵 
决策 树 对 应 一 个 相互 独立 且 服 从 统一 分 布 的 随机 变量 ,使 用 有 放 回 随机 玉 样 的 训练 集 和 对 应 的 随机 变量 去 生成 决策 树 。 通 过 将 多 
棵 决策 树 进行 集成 来 达到 分 类 准确 率 的 提升 ， 模 型 最 后 的 输出 结果 由 所 有 树 的 多 数 表 决 结果 来 决定 。 


随机 森林 的 生成 过 程 中 有 两 次 随机 ， 第 一 次 是 每 棵 树 训练 集 的 选取 采用 有 放 回 的 随机 抽样 ， 第 二 次 是 树 节 点 分 多 时 随机 无 放 
回 地 从 整体 特征 中 选取 属性 进行 计算 ， 并 得 到 最 佳 分 裂 属性 。 随 机 森林 中 决策 树 在 生长 训 | 练 还 中 不 进行 人 为 干预 或 枝叶 收音， 使 
其 自由 生长 。 这 种 随机 性 使 得 随机 森林 能 够 避免 单一 决策 树 过 拟 合 现象 的 友 生 。 随 机 和 森林 中 的 每 一 个 单 棵 的 决策 树 都 是 在 某 一 个 
特征 属性 上 具有 决策 能 力 的 弱 分 类 器 ， 最 终 集成 成 为 性 能 强大 的 分 类 器 。 


4.2.3 SVM 文本 分 类 模型 


支持 向 量 机 (Support Vector Machine, SVM) 是 在 高 维特 征 空 间 使 用 线性 消 数 假设 空间 的 算法 ， 在 分 类 方面 具有 良好 的 
性 能 。 在 目 然 语言 处 理 中 ，SVM 广 泛 应 用 于 文本 分 类 、 短 语 识 别 、 消 除 歧 义 等 方面 。 


对 于 给 定 训练 样本 集 ， 分 类 学 习 的 基本 思想 是 在 样本 空间 中 找到 一 个 超 平面 ， 将 不 同类 别 的 样本 分 开 。 距 离 超 平 面 最 近 的 几 
个 训练 样本 被 称 为 文 持 向 量 (Support Vector) 。 两 个 不 同类 别 的 文 持 向 量 到 超 平 面 的 距离 之 和 称 为 间隔 。 能 够 将 训练 样本 划 
分 的 超 平 面 可 能 存在 多 个 ， 其 中 间隔 最 大 的 超 平 面 泛 化 能 力 最 强 ， 称 为 最 优 超 平面 。 将 起 平面 表示 为 
WX+b=0, f (x) =sign (WX+b) 为 对 应 的 分 类 决策 国 数 。 对 于 样本 xi， E no > 〈 则 判定 其 为 正 类 ， 反之 为 负 类 。 


一 个 点 距离 分 离 超 平面 的 远近 可 以 表示 分 类 预测 的 确信 程度 。 线 性 可 分 支持 向 量 机 是 利用 间隔 最 大 化 求 最 优 分 类 起 平 面 的 ， 
其 解 也 是 唯一 地 。 因 此 ， 对 于 线性 可 分 支持 向 量 机 学 习 算法 一 般 采 用 最 大 间隔 法 。 构 造 出 约束 最 优化 问题 ， 将 最 大 化 间 阳 作为 目 


标 消 数 ， 使 约束 条 件 中 每 个 训练 样本 点 到 起 平面 的 距离 至 少 是 几何 间 阳 ,具体 可 以 表示 为 下 列 的 约束 最 优化 问题 : 


S. I. y, Tol 


IFJ UTERI RSE am : 


s.t y; (w+ x, +6) =y 


1 1 4 
由 于 w 和 b 可 以 同比 例 放 大 或 缩小 ， 且 对 不 等 式 约束 没有 影响 ， 所 以 可 以 取 7 = 1， 而 由 于 最 小 化 Tol 和 最 大 化 二 “1 等 价 ， 所 以 
线性 可 分 最 优化 问题 转化 为 : 


Ly 
min |} w | 


wb 2 


st 6 6y.(@: x, +b) -120 


为 了 求解 线性 可 分 支持 向 量 机 的 最 优化 问题 ， 将 其 转化 为 拉 格 明日 对 偶 问 题 进行 求解 ， 通 过 对 偶 问 题 得 到 原始 问题 的 最 优 
。 其 优点 企 于 ， 对 偶 问题 更 加 容易 求解 ， 便 于 推广 到 非 线性 分 类 的 情况 。 


at 
十 d 


Fore SUAS BA H ASN: 


N N 
] 
| Aa 2 I 
L(w, b, a) = > lwl- X ay (lox +6) + Ya, 
=] 
原始 问题 的 对 偶 问 题 转 换 为 极 大 极 小 问题 ， 即 


¿=l 


max min L(w, b, a) 
a 


w, b 


并 不 是 所 有 训练 样本 在 样本 空间 中 都 是 线性 可 分 的 。 对 于 非 线 性 问题 ， 可 以 将 样本 映射 到 某 个 高 维特 征 空间 使 其 线性 可 分 


站 先 ， 需 要 找到 一 个 输入 空间 到 特征 空间 的 映射 ， 然 后 在 特征 空间 中 使 用 线性 分 类 器 进行 分 类 。 由 于 线性 分 类 器 可 以 表示 成 对 偶 
形式 ， 将 其 用 测试 点 和 训练 点 的 内 积 来 表示 : 


k 


f(x) = 


J, ay; ( 9 ) 
i 二] 

Sich, k (-, -) 是 直接 在 特征 空间 中 计算 内 积 的 方法 ， 称 为 核 函 数 。 核 函数 可 以 直接 使 用 样本 空间 中 的 数据 进 
的 内 积 运算 ， 并 不 需要 寻找 映射 关系 。 核 函数 的 充 要 条 件 是 对 于 样本 空间 中 任意 样本 点 ， 核 短 阵 半 正定 。 常 用 的 核 函数 主要 有 线 
性 核 函 数 、 多 项 式 核 函 数 、 高 斯 核 函 数 、Sigmoid 核 函数 等 


行 特 征 空 间 


4.3 ”主题 模型 


= 


主题 (Topic) 通俗 的 理解 是 对 报告 、 文 章 、 新 闻 等 文档 进行 全 文 性 的 一 种 高 度 概括 的 
闻 可 以 有 体育 、 


page 


总 结 ， 也 可 以 叫 作 一 个 话题 。 璧 如 新 
娱乐 、 房 产 、 旅 游 、 科 技 等 多 个 不 同 的 主题 或 者 话题 。 那 么 是 如 何 用 最 直接 的 方法 来 确定 一 个 主题 的 呢 ? 
假设 我 们 翻 开 一 本 书 ， 想 要 快速 确定 是 否 


定 是 售 是 我 们 感 兴 


兴趣 的 主题 ， 应 该 怎么 办 呢 ? 为 了 节省 时 间 ， 很 多 时 候 我 们 会 粗略 的 翻 看 
书籍 ， 这 个 时 候 我 们 主要 注意 书 中 经 党 出 现 的 词 (Words) 有 了 哪些， 这样 基 本 上 束 可 以 确定 这 本 书 大 概 的 主题 是 什么 了 ， 或 者 
有 几 个 主题 。 
所 以 ， 从 人 们 认 知 的 习惯 上 来 说 ， 主 题 可 以 是 由 许多 局 频 词 按照 一 定 规 律 排序 的 集合 。 因 为 主题 大 体 上 只 是 和 词 出 现 的 频率 
相 天 ， 和 排序 没有 直接 的 联系 ， 所 以 习惯 上 我 们 把 构成 主题 的 词 模型 称 作词 宾 模 型 (Bag of Words) 。 


4.3.1 ”基础 知识 回顾 


为 了 了 解 LDA 的 算法 步骤 ， 需 要 先 了 解 一 些 知 识 点 。 

1) Gammaegax: Dirichlet 分 布 作为 移 验 概率 的 公式 是 由 多 个 不 同 的 Gamma 闻 数组 合 而 成 的 。 
2) 多 项 分 布 。 

3) 共 斩 ， 共 辑 移 验 图 数 : 在 LDA 算 法 步骤 中 所 提 到 的 Dirichlet 分 布 是 多 项 分 布 的 共 斩 先 验 消 数 。 
4) Beta 分 布 。 

5) Dirichlet 分 布 。 

6) Gibbs Sampling。 


Gammakizv: Gamma 上 函数 被 摘 述 为 阶乘 久 数 ， 是 因为 它 可 以 拆 解 成 所 给 变量 的 阶乘 形式 。 


I(x) = A e~t dt(x > 0) 


WEAR: F (n) = (n-1) ! 


+ 20 


+ o0 


r(1)= | edt=-le l=1 


+o 


I(x +1)= | e tdt=-— | : td(e )=- [te |,” + x| i e” tdt = x(x) 


K 


项 分 布 : EPFPRRIFITRD, MEARAN ENA RE. REA AA 
果 丈 符合 多 项 分 布 ， 它 可 以 通俗 的 理解 为 ， 在 可 重复 的 n 次 的 独立 实验 中 有 Kk 种 结果 的 可 能 性 ， 每 次 只 出 现 k 种 结果 中 的 一 个 而 且 
符合 一 个 确定 的 概率 p。 


n | 


— . | yar 。。。 D k 
y leeg [E1 E2 Pi, 


PUA, BX, Ay ER 885. A Ny Bis Dis. a De) 


CHARA 


p, 20(1 Sisk), dp, =1 


我 们 用 具体 的 例子 来 形象 地 吉明 一 下 多 项 分 布 : 


假设 一 个 袋子 里 六 着 n 个 球 ， 球 一 共有 k 种 不 同 的 颜色 。 现 在 随机 抽取 m 个 球 ， 这 k 种 颜色 不 一 样 的 球 服从 多 项 分 布 : 


k 
brs Piss De Pe S 1 
i=l o 


stip, HMA: 共 斩 从 字面 上 理解 是 共同 被 约束 的 意思 。 它 被 用 到 了 贝 叶 斯 理论 中 来 描述 先 验 分 布 P (©) 和 后 验 概 
率 P (O) 服从 同一 个 分 布 ， 这 个 时 候 称 先 验 ， 后 验 概率 分 布 共 斩 ， 先 验 分 布 是 似 然 函 数 的 共 辆 先 验 分 布 。 


先 验 分 布 P(9) + 似 然 函 数 ( 样 本 信息 已) 一 后 验 分 布 P(O | x) 
Beta 分 布 : Beta 分 布 是 定义 在 (0, 1) 区 间 的 连续 概率 分 布 ， 两 个 参数 a，B 都 大 于 0; 


use _ x (1 - x)” _ Ca +B) a- | g)! 
eee fue (1 ~ wu) du A | 


] _1 E 
= ————__y*! (] - x) 
Beta(a, B) bo 8) 


Dirichlet : 


iri t( 7 eee i eee = 站 ai 一 ] 
Dirichlet(p, » P25 s Pn | Qis Q2, ’ a, ) T n Pi 


4.3.2 BERIE 
吉 布 斯 采样 (Gibbs Sampling) 是 经 常 使 用 的 一 种 gampling 采 样 的 方法 。 为 了 更 加 容易 理解 言 布 斯 采样 ， 我 们 先 来 襄 识 什 
么 是 采样 。 采 样 和 抽样 是 经 党 遇 到 的 两 个 统计 学 名 词 ， 但 是 它们 之 间 的 差别 却 是 很 明显 的 ， 操 作 方 法 甚至 是 相反 的 。 


抽样 ， 有 的 时 候 也 说 是 取样 ， 是 从 实验 的 思 体 中 抽出 来 一 部 分 作为 实验 样品 。 需 要 保证 的 是 抽样 出 来 的 样本 对 实验 轧 体 有 充 
分 的 代表 性 。 比 如 样本 的 分 布 、 分 布 的 统计 参数 、 对 总 体 有 代表 性 。 


采样 (Sampling) 是 遵从 一 定 的 概率 分 布 去 挑选 满足 这 个 分 布 的 离散 事件 或 者 事件 组 合 。 也 可 以 理解 为 把 连续 的 分 布 规律 
转化 为 离散 的 事件 和 事件 组 合 的 样本 。 


抽样 是 从 总 体 中 抽样 出 一 部 分 样本 数据 ， 求 出 样本 的 概率 分 布 p (x) ， 然 后 讨论 抽样 样本 的 概率 分 布 能 售 代 表 总 体 。 采 样 
刚好 是 抽样 的 逆 合 题 : KE (Sampling) 是 给 定 一 个 概率 分 布 p (x) ， 然 后 讨论 如 何 生 成 满足 概率 分 布 的 样本 。 


在 介绍 吉 布 斯 采样 前 ， 需 要 介绍 两 个 概念 ， 马 尔 可 夫 链 的 平稳 分 布 ， 马 尔 可 夫 链 蒙特 卡 党 万 法 (Markov Chain Monte 


Carlo) 。 
可 逆 马 尔 可 夫 链 (Reversible Markov Chain) : 如 果 说 一 个 马尔 可 夫 链 是 可 逆 的 ， 需 要 存在 一 个 概率 分 布 mi 上 它 满足 : 
aP Xaaji Xs =i) 二 下 (Xu,+1=i|X,=j) 


如 果 对 任意 的 时 间 点 n 和 所 有 的 状态 点 和 j 都 仓 在 上 述 关 系 ， 那 么 焉 说 这 个 条 件 满 足 马 尔 可 夫 细 致 平稳 条 件 。 


假设 用 以 下 形式 简写 条 件 概率 : 
PFP Xa i) 
那么 可 以 得 到 : 

tP = tpj 

我 们 对 上 述 等 式 求 昧 加 可 以 有 : 


DUMP LAMP AM Abi 


马尔 可 夫 链 收敛 定理 : NERA SERS, CHER REN, Mee T 
| TI T, T, | 
T "T = TL : b. è 
li n | l - J 
1) limP; = 
n—a0o0 a o. o. o. o 


mo mo ce m e 

2) i= 2 ， TP i 

3) 7 是 方程 TP=T 的 唯一 非 负 解 
其 中 


00 
TmT 一 Ti, Tiz, my Ts e], > TT | = l 
1=] 
Tt 被 叫 作 马 尔 可 夫 链 的 平稳 分 布 。 
采样 最 直接 的 理解 是 给 定 一 个 概率 分 布 P (x) ， 而 我 们 可 以 通过 采样 生成 对 应 分 布 的 样本 。 马 尔 可 夫 链 的 平稳 分 布 的 诈 
生 ， 使 我 们 有 了 比较 可 靠 的 方法 进行 采样 。 如 果 可 以 构建 一 个 一 步 转移 矩阵 使 尼 满 足 经 过 多 次 转移 后 ， 马 尔 可 夫 链 的 平稳 分 布 融 
是 给 定 的 概率 分 布 。 那 么 我 们 只 需 构建 一 个 时 间 序 列 [xX0，x1，.…，Xt，Xt+1，…] ， 初 始 值 为 X0。 假 设 在 状态 t 的 马尔 可 天 链 进 
入 平稳 分 布 ， 既 是 采样 生成 分 布 满足 给 定 的 分 布 。 


构造 满足 细致 平稳 条 件 的 马尔 可 夫 链 : 一 般 的 马尔 可 夫 链 其 实 并 不 具备 细致 平稳 条 件 既 : 
p G) q GID #p G) q (1) 

其 中 q (jli) 表示 从 转 态 i 到 的 转移 概率 。 同 时 我 们 可 以 引入 一 个 接受 概率 a (li) 得 到 : 
p G) q GID & Gl) =p G) q GIj) « Gilj) 

按照 对 称 性 ， 可 以 取得 : 

« Gli) =p G) q Gi), œ Gi) =p G) q Gli 


使 得 加 入 接受 概率 的 等 式 满足 细致 平稳 条 件 : 


p(i)g(j lda li) =pli jali lj) 


~ 
A 
Z 


q'i |i) q'(i |j) 


Mise IRITARE Eq (jli) , EWEA FERF. CENERI EPAILA (li 转移 到 状 


j， 并 以 a Gi) 的 概率 接受 这 个 转移 ， 我 们 就 可 以 来 样 到 满足 平稳 分 布 的 p (x) 。 


DRYAS SRE: 设 xt 是 时 间 为 t 的 随机 变量 ， 马 尔 可 夫 链 为 从 初始 状态 xo 开 始 的 一 个 时 间 序 列 [xo x1, 


… Xt，Xt+1，…] ， 时 间 序 列 满足 马尔 可 夫 性 ， 即 : 


P (Xar tal X = (|) 

在 t=0，1，2，…， 循 环 执行 下 列 的 步骤 进行 采样 。 

1) 马尔 可 夫 链 的 t 时 间 的 状态 Xt=xt， 采 样 y~ q (x|xt) ， 即 采样 y 的 转移 概率 为 q (x|xt) | 
2) 从 均匀 分 布 采样 uU~ Uniform [0, 1] ; 

3) 采样 y 需 要 满足 细致 平稳 需求 ， 引 入 接受 概率 a (ylxt) =p (y) q (xtly) ; 
4) 如 果 u<a (ylxt) =p (y) q (xtly) ， 则 接受 转移 Xt=y; 

5) 否则 不 接受 转移 Xt=xt。 

假设 平行 于 y 轴 的 x=x1 直 线 上 的 两 点 A (x1，y1) ，B (x1，y2) ， 会 发 现 

P Gq, y1) p (y2|x1) =p Gy) p Gils) p (72131) 

P (xl，y2) p Cite) =p Gy) p Gels) p Gils) 

所 以 有 

P (xl，y1) p (y2|X1) =p Gy, y2) p (y1lx1) 


EE: 


p (A) p Gols) =p (B) p Gils) 


后 面 同样 可 以 证 明 ， 只 要 两 个 点 在 沿 着 任意 坐标 轴 的 万 向 进行 转移 ， 都 会 满足 细致 平稳 条 件 。 吉 布 斯 采样 就 利用 了 这 个 万 法 
采样 ， 得 到 了 给 定 的 平稳 分 布 。 


吉 布 斯 采样 : 在 n 维 空间 的 条 件 下 ， 给 定 分 布 为 p (x1, X2, ...， Xn) o 


状态 (x1，x2，…，xn) 在 马尔 可 夫 链 转移 过 程 中 ， 只 能 沿 着 xi 的 方向 进行 ， 转 移 概 率 为 P (Xi|lx1，…，Xi-1，Xi+1， 
…， Xn) 。 无 法 沿 Xi 的 方向 的 转移 概率 都 是 0。 则 n 维 言 布 斯 有 样 算法 如 下 所 述 : 


1) 随机 初始 化 变量 {xi: i=1, 2, .., nye 


2) 在 t=0，1，2，.…， 循 环 执行 下 询 的 步骤 进行 采样。 


(t+1) | (1) (+) (t) \ 
Ae Ay ~ p(x E> pees SK 

(t +1) (¢ +1) (£) (t) 
b. Xa ~p(x, E? 9 A3 ， s An ) 
C. 

(141) (t+1) (t41) (i141) (t) (1) 
d. x; ~p(x, | x, » Mey My Bs Mixes **;, &%, 
e. 

(t+1) (t+1) (t+1) (t+1) 
f. X a ~ p(x, E? 7 5 J T X a-l ) 


当 循 环 执行 b 操 作 收 敛 得 到 平稳 分 布 后 ， 我 们 融 得 到 了 所 求 的 概率 分 布 Pp (X1, X2, Xn) o 


43.3 fal Bo ace 


Probabilistic Latent Semantic Analysis，PLSA 模 型 : 每 篇 文章 我 们 都 可 以 看 成 是 任意 多 个 主题 混合 组 成 的 ， 而 每 个 主题 
可 以 看 成 是 词语 的 不 同 的 概率 分 布 。 假 设 文档 集合 D= [d1], dz, ..., dml ， 任 意 文档 dm 对 应 主题 的 概率 是 0， 任意 主题 对 应 
词 的 概率 是 pk， 则 dm 中 的 任意 词 生成 的 概率 是 


本 2 k 
p(w| d,) = [| >》 po, z)Jp(zld) = ] X Pro, 
TT -l al 


隐 狄 利克 雷 分 配 模型 (LatentDirichlet Allocation, LDA) : 是 自然 语言 处 理 中 一 种 非 监督 的 生成 模型 ， 它 认为 一 篇 文档 
(Document) 是 由 多 个 隐 售 在 文章 里 面 的 主题 所 构成 的 ， 而 每 个 隐 含 的 主题 是 由 多 个 高 频 词 为 主 的 词 袋 方法 构成 的 。 所 谓 生成 
既是 : 文档 通过 服从 一 定 概率 词语 选择 了 某 个 主题 (文档 到 主题 服从 多 项 分 布 ) ， 基 个 主题 也 通过 一 定 概率 选择 了 每 一 个 词 (E 


题 到 词语 服从 多 项 分 布 ) 。 如 果 要 生成 一 篇 文档 ， 融 要 考虑 用 上 述 的 过 程 来 生成 每 个 词 出 现 的 概率 : 


Topic) x P( Topic | Documents) 


Doucument) = >》 P( Words 


k=l 


P( Words 


LDA 一 般 用 来 帮助 我 们 从 大 规模 的 文档 中 寻找 到 隐藏 在 其 中 的 主题 信息 。 下 面 来 了 解 LDA 生 成 一 篇 文档 的 一 般 性 算法 步骤 : 
1) 按照 概率 选择 第 | 篇 文档 。 

2) 每 篇 文档 的 主题 多 项 分 布 是 从 Dirichlet 先 验 分 布 c 中 取样 生成 文档 的 主题 分 布 6m。 

3) 从 主题 的 多 项 分 布 bm 中 取样 生成 文档 第 j 个 词 的 主题 zm，n。 

4) 每 个 主题 的 词语 多 项 分 布 是 从 Dirichlet 先 验 分 布 B 中 取样 生成 主题 zm，n 对 应 的 词语 分 布 Ppk。 

5) 从 词语 多 项 分 布 pk 中 采样 生成 最 终 的 词语 wm ne 


示意 图 如 图 4-3 所 示 。 


me|l,M] 


图 4-3 LDA 算 法 利用 Gibbs Sampling 生 成 示意 图 


Dirichlet 分 布 和 Multinomial 分 布 是 共 斩 分 布 ， 在 贝 叶 斯 概率 计算 中 ， 可 以 移 简 单 地 利用 Dirichlet 分 布 来 充当 先 验 分 布 ， 似 


然 函数 自然 就 是 多 项 分 布 ， 这 样 得 到 的 后 验 分 布 也 是 Dirichlet 分 布 。 
假设 先 验 分 布 为 Dr(P | Qa)， 每 个 词 出 现 的 频次 服从 多 项 分 布 * ~ Multia 17)， 则 它 的 后 验 分 布 为 Dir(P |n +a) 
从 图 4-3 可 以 看 出 ， 图 示 是 把 采样 解释 为 两 层 Dirichlet-Multinomial 结 构 。 


1) 第 m 个 文档 包含 的 各 个 主题 所 对 应 的 所 有 词 。 


先 验 分 布 为 Dr(e, |a)， 每 个 词 出现 的 频次 服从 多 项 分 布 i ~ Multi(7, 1 90,)， 则 它 的 后 验 分 布 为 
p(Z» |œ) =Dir(0„ |œ) + Mult(n,) =Dir(0, np +æ) 
那么 所 有 M 篇 文档 生成 各 个 主题 的 所 有 词 的 分 布 为 
M M ( a a ) 
+ iz 2 Iž A(n,, + @ 
D(Z |w) = | lp (Zm a ) — 
m= l m= | Ala) 


2) 在 文档 中 生成 所 有 的 主题 ， 第 k 个 主题 生成 的 词 : 


一 


先 验 分 布 为 Vir(%.18)， 每 个 词 出 现 的 频次 服从 多 项 分 布 " ~ Multi, | p.)， 则 它 的 后 验 分 布 为 


p(w, |B) =Dir(o, |B) + Mult(n,) =Dir(w, |n, +B) 
那么 所 有 K 个 主题 生成 所 有 词 的 分 布 可 以 写成 
p(@|z, B) = ] pCa, | i, oY = = 
k=1 k=] is ( B ) 
结合 第 1 步 的 结果 得 到 完整 的 整个 文本 训练 集 生 成 的 联合 概率 : 
一 m = gh) ae e A (n,, + @) : A(n, +B) 
p(@, z\a, B) = p(w!z, B)p(z a) = [[ — [| 一 一 一 一 
m=] A (æ) k=1 A (B) 
这 样 就 可 以 利用 w， BA NE%M + KDirichlet-Multinomialtt#ea7p, ERAERRMS3CEY RK ESRASAA Sia TS 
下 面 来 根据 文本 训练 集 生 成 的 联合 概率 来 推导 Collapsed Gibbs Sampling 采 样 公式 。 


w 表 示 语 料 中 所 有 的 生成 词 ，z 代 表 各 隐藏 的 主题 ，w 和 4 是 超 参数 。 主 题 为 z 的 语 料 中 第 i 个 词 对 应 的 主题 zj， 一 琴 示 除去 下 
标 为 的 词 。 根 据 Gibbs Sampling 的 要 求 ， 我 们 需要 得 到 沿 着 任意 一 个 坐标 轴 i 对 应 的 条 件 分 布 为 ?(z; = |z-:，w)， 则 生成 这 个 词 
Wi=t: 
—y 


p(z, =k|z_,, w) x p(z, =k, W,=t|Z_;; w) 


因为 第 i 个 词 是 (zj=k, wit), ARLABIRRX Mal, 3teayDirichlet-MultinomialE4ezataiA {Tie : 


一 


p(0, Zi, Wi) 


|| 
= 
m 
T 


P(g, Zi, w_;) = Dir Q n, +B) 
Collapsed Gibbs Sampling 的 生成 公式 可 以 利用 上 述 公 式 得 到 |: 
D(z w) ccp(z =k, w, =t | 


右边 公式 表示 在 已 知 除了 对 应 的 第 i 个 词 和 词 i 对 应 的 主题 ， 第 i 个 词 和 其 对 应 的 主题 的 概率 为 : 


一 


ki 9 w) 


P ( “I 4 l 
加 入 两 个 分 布 的 参数 0,, z% 对 上 式 积分 我 们 可 以 得 到 |: 


— 


[plz = k, W; = l, Om,» Dr | ae w_;)d 6,,d D; 


- ZE = k 0, | Z_,,@_;) p(w, t, Pr | Z_;,@_;)d 0nd By 


每 一 个 联合 概率 都 拆 成 条 件 概率 的 乘积 ， 然 后 分 成 两 个 部 分 积分 


= [plz 


k | 0,,) P On | Zis w_;) p(w, = OL) PE | ae w_;)d 0,.d pt 


| 
—, 
g~ 
~~、 
JN 
|| 


k | On) P On | 2 w_;)d 6, [p Cw, > t | Oi PD pr | a w_,)1& 


t | Pr) PH | aa wi) d Qr 


II 
已 
pnt 
T 

| 


一 k | 0,,)p(0,, | Zs w_;,)d 0, |p Cw; 


整合 成 求 6mk 和 中 估计 的 形式 : 


{0,,,Dir(, | Nn —i TẸ œ) d 0, |px Dir (£, Hg +B)d Pr 


得 到 9mx 和 pkt 的 期 望 : 
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所 以 Gibbs Sampling 的 LDA 生 成 公式 为 : 
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实际 上 ， 它 代表 的 意义 就 是 根据 两 个 Dirichlet-M ultnomi 从 文档 到 主题 ， 从 主题 到 词 的 生成 过 程 。 


44 本章 小 结 


本 章 介绍 了 一 些 文本 分 析 中 一 些 带 用 的 经 典 的 算法 模型 。 这 些 算法 模型 不 仅 可 以 使 用 在 对 话 系统 ， 还 可 以 使 用 在 更 广泛 文本 
分 析 和 文本 挖掘 的 应 用 场景 下 。 


学 过 本 草 ， 可 以 从 3 个 方向 学 习 文本 分 析 的 算法 模型 : 第 一 ， 文 本 的 特征 表达 。 本 章 介绍 了 传统 的 文本 特征 表达 方式 ， 昌 然 
现在 深度 学 习 大 行 其 道 ， 但 是 结合 不 同 的 应 用 场景 能 用 好 这 些 最 基本 方法 还 是 可 以 取 到 不 错 的 效果 。 第 二 ， 文 本 分 类 模型 。 因 为 
分 类 模型 众多 ,但 由 于 篇 幅 有 限 ， 也 仪 仅 介 绍 了 3 个 最 基本 的 分 类 模型 ,但 如 果 能 用 好 这 些 简单 模型 束 足 天。 在 对 话 系 统 和 其 他 
文本 分 析 的 应 用 场景 ， 有 很 多 问题 是 可 以 抽象 成 分 类 模型 。 第 三 ， 文 本 聚 类 。 文 本 聚 类 的 方法 很 多 ，LDA 可 能 是 比较 复杂 模型 。 
擎 握 这 个 模型 并 应 用 到 对 话 系统 中 大 有 昼 益 。 和 希望 通过 对 本 章 的 学 习 ， 读 者 可 以 更 深入 擎 握 目 然 语 言 处 理 的 一 些 算法 工具 。 


第 5? 章 将 开始 讲解 深度 学 习 模型 。 本 章 所 学 算法 模型 企 对 话 系统 中 的 使 用 过 程 中 ， 会 进一步 优化 和 改进 对 话 系统 的 结果 。 


深度 学 习 常 常 被 认为 是 非常 复杂 的 技术 ， 但 是 事实 上 并 非 如 此 。 正 如 我 们 前 文 介绍 的 ， 深 度 学 习 在 理解 后 十 分 简洁 且 优 雅 ， 
本 章 将 市 你 学 习 深 度 学 习 模 型 的 构建 精髓 。 


5.1 基于 深度 学 习 的 目 然 语言 模型 


5.1.1 “神经 网 络 自然 语言 模型 与 词 向 量 


目 然 语言 处 理 不 同 于 图 像 或 音频 处 理 。 在 图 像 处 理 中 ， 像 素 点 的 强度 值 (如 果 是 256 色 的 强度 值 为 0~255) 是 可 以 表示 成 高 
维度 的 数据 向 量 集合 。 同 样 音频 的 功率 密度 的 强度 值 也 是 可 以 表示 成 数据 向 量 集合 。 而 在 目 然 语言 处 理 中 ， 每 个 词 的 传统 表示 都 
是 离散 的 ， 简 单 来 蜗 ， 束 是 词 和 词 之 间 不 存在 任何 的 关联 。 比 如 “男孩 ”和 “女孩 ”这 两 个 词 ， 传 统 独 热 的 表示 方法 无 法 告诉 我 
们 这 两 个 词 之 间 的 关联 ， 但 如 果 可 以 创建 词 和 词 之 间 的 关系， 并 且 可 以 用 词 向 量 表示 出 来 ， 那 么 “男孩 ”和 “女孩 ”的 天 系 、 

“城市 ”或 和 “小 马 ” 融 会 有 一 个 量化 的 认识 。 


目 然 语 言 中 词 的 表示 方法 大 概 有 两 种 类 型 : 独 热 (One-hot) 和 分 布 式 (Distributed) 表示 。 


独 热 表示 (One-Hot Representation) : 自然 语言 中 最 直观 的 表示 方式 ， 就 是 把 这 个 词 按照 一 定 的 顺序 进行 索引 
(Index) 。One-Hot 的 表示 方法 就 是 利用 字典 词 的 数目 或 有 限 维度 来 作为 词 的 表示 。 作 为 单独 的 表示 ， 用 One-Hot 表 示 的 词 之 
间 是 没有 什么 相互 关系 的 。 


Example: 假设 有 1000 个 词 的 词典 。“ 我 ”“ 爱 ” “北京 ” “的 ”“ 天 安 门 ”。 那 么 这 个 词 在 词典 中 排序 的 位 置 为 1， 其 他 
的 位 置 都 是 0， 如 图 5-1 所 示 。 
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图 5-1 One-Hot 词 向 量 表 示 
分 布 式 表示 (Distributed Representation) : 为 了 使 每 个 词 之 间 的 关系 更 容易 通过 表示 方法 来 展现 出 来 ， 我 们 把 利用 多 维 


度 标识 词 的 特征 、 词 与 词 之 间 的 关系 特 征 、 词 与 上 下 文 之 间 关 系 特征 的 表示 方法 称 为 分 布 式 表示 。 其 通过 每 一 个 词 和 上 下 文 的 关 
系 训练 得 到 一 个 固定 维度 的 同 量 ， 引 入 多 维度 的 距离 概念 ， 使 得 越 是 相似 的 词 ， 词 之 间 的 距离 束 越 相近 ， 如 图 5-2 所 示 。 


QUEENS 


图 5-2 Distributed Representation 


Vector Space Models (空间 向 量 模型 ) 是 基于 distributed representation 将 词语 表示 成 (Embedding) 在 一 个 连续 空间 
向 量 中 的 向 量 集合 ， 语 义 更 加 相近 的 词汇 被 映射 的 数据 点 时 融会 更 加 接近 ， 比 如 “男孩 ”和 “女孩 ”或 者 “北京 ”和 “天 津 ”。 
向 量 的 间 的 距离 是 人 否 更 加 接近 取决 于 我 们 用 来 训练 的 上 下 文 。 在 空间 向 量 模型 的 研究 上 大 概 分 为 : 基于 语义 分 析 的 方法 
(LDA, SVD) 和 基于 预测 的 向 量 表示 法 (NNLM) 。 


基于 语义 分 析 的 方法 : 在 一 个 大 型 语料库 中 计算 某 词 汇 与 其 邻近 词汇 共同 出 现 的 频率 及 其 他 统计 量 ， 然 后 将 这 些 统计 量 映射 


到 一 个 语义 同 量 中 。 


基于 预测 的 表示 法 : 直接 从 某 词汇 的 邻近 词汇 对 其 进行 预测 ， 在 此 过 程 中 不 断 利用 已 经 学 习 到 的 词 和 词 之 间 的 近似 关系 ,不 
断 完善 ,构建 整体 中 的 每 一 个 词 藤 入 向 量 (Embedding Word Vector) 。 


5.1 基于 深度 学 习 的 目 然 语言 模型 


5.1.1 “神经 网 络 自然 语言 模型 与 词 向 量 


自然 语言 处 理 不 同 于 图 像 或 音频 处 理 。 在 图 像 处 理 中 ， 像 素 点 的 强度 值 (如 果 是 256 色 的 强度 值 为 0~255) 是 可 以 表示 成 高 
维度 的 数据 向 量 集合 。 同 样 音频 的 功率 密度 的 强度 值 也 是 可 以 表示 成 数据 向 量 集合 。 而 在 自然 语言 处 理 中 ， 每 个 词 的 传统 表示 者 
是 离散 的 ， 简 单 来 说 ， 就 是 词 和 词 之 间 不 存在 任何 的 关联 。 比 如 “男孩 " 和 “女孩 这 两 个 词 ， 传 统 独 热 的 表示 方法 无 法 告诉 我 
们 这 两 个 词 之 间 的 关联 ， 但 如 果 可 以 创建 词 和 词 之 间 的 关系 ， 并 且 可 以 用 词 向 量 表示 出 来 ， 那 么 “男孩 ”和 “女孩 ”的 关系 、 
“城市 ”或 和 “小 鸟 。 就 会 有 一 个 量化 的 认识 ， 


目 然 语言 中 词 的 表示 万 法 大 构 有 两 种 类 型 : 独 热 (One-hot) 和 分 布 式 (Distributed) 表示 。 


独 热 表示 (One-Hot Representation) : 自然 语言 中 最 直观 的 表示 方式 ， 就 是 把 这 个 词 按照 一 定 的 顺序 进行 索引 
(Index) 。One-Hot 的 表示 方法 就 是 利用 字典 词 的 数目 或 有 限 维度 来 作为 词 的 表示 。 作 为 单独 的 表示 ， 用 One-Hot 表 示 的 词 之 
间 是 没有 什么 相互 关系 的 。 


Example: 假设 有 1000 个 词 的 词典 。 “我 。“ 爱 ” “北京 ” “的 ”“ 天 安 门 ”。 那 么 这 个 词 在 词典 中 排序 的 位 置 为 1， 其 他 
的 位 置 都 是 0， 如 图 5-1 所 示 。 
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图 5-1 One-Hoti me RA 
分 布 式 表示 (Distributed Representation) : 为 了 使 每 个 词 之 间 的 关系 更 容易 通过 表示 方法 来 展现 出 来 ， 我 们 把 利用 多 维 


度 标识 词 的 特征 、 词 与 词 之 间 的 天 系 特征 、 词 与 上 下 文 之 间 关 系 特征 的 表示 方法 称 为 分 布 式 表示 。 其 通过 每 一 个 词 和 上 下 文 的 关 
系 训练 得 到 一 个 固定 维度 的 向 量 ，3 引 入 多 维度 的 距离 概念 ， 使 得 越 是 相似 的 词 ， 词 之 间 的 距离 束 越 相近 ， 如 图 5-2 所 示 。 


图 5-2 Distributed Representation 


Vector Space Models (空间 向 量 模型 ) 是 基于 distributed representation 将 词语 表示 成 (Embedding) 在 一 个 连续 空间 
向 量 中 的 向 量 集合 ， 语 义 更 加 相近 的 词汇 被 映射 的 数据 点 时 融会 更 加 接近 ， 比 如 “男孩 ”和 “女孩 ”或 者 “北京 ”和 “天 津 ”。 
向 量 的 间 的 距离 是 人 否 更 加 接近 取决 于 我 们 用 来 训练 的 上 下 文 。 在 空间 向 量 模型 的 研究 上 大 概 分 为 : 基于 语义 分 析 的 方法 
(LDA, SVD) 和 基于 预测 的 向 量 表示 法 (NNLM) 。 


基于 语义 分 析 的 方法 : 在 一 个 大 型 语料库 中 计算 某 词汇 与 其 邻近 词汇 共同 出 现 的 频率 及 其 他 统计 量 ， 然 后 将 这 些 统计 量 映射 
到 一 个 语义 向 量 中 。 


基于 预测 的 表示 法 : 直接 从 某 词 汇 的 邻近 词汇 对 其 进行 预测 ， 在 此 过 程 中 不 断 利用 已 经 学 习 到 的 词 和 词 之 间 的 近似 关系 ,不 
断 完善 ,构建 整体 中 的 每 一 个 词 藤 入 向 量 (Embedding Word Vector) 。 


5.1.2 A Neural Probabilistic Language Model 


神经 网 络 语言 模型 (NNLM) 是 Yoshua Bengio 于 2003 年 在 《A Neural Probabilistic Language Model》 这 篇 论文 中 发 
表 的 词 向 量 表示 模型 ， 它 有 效 地 改进 了 N-Gram 文 法 ， 使 词 向 量 可 以 利用 比 Four-Gram 更 长 的 上 下 文 来 对 这 个 词 产 生 影 响 。N- 
Gram 模型 参数 会 因为 n 的 增加 呈现 指数 级 增长 ， 所 以 语言 模型 一 般 会 被 限制 在 Four-Gram 内 。 


NNLM 是 利用 m 维 概率 空间 向 量 来 表示 一 个 词 ， 而 N-Gram 模 型 在 高 纬度 下 存在 很 多 0 的 概率 值 ， 而 解决 这 个 问题 有 平滑 、 
插值 等 方法 。 相 比 而 言 NNLM 不 会 出 现 类 似 的 问题 ， 且 仍然 可 以 建立 词 之 间 的 关系 。 


wt 是 第 t 个 单词 ， 上 下 标 表示 词 序 列 为 w= (Wi，wi+1，.…，Wj-1，Wj) ， 那 么 第 t 个 词 的 条 件 概率 可 以 表示 为 : 


| T P 
P(w) = 下 Po = i) wy") 
t=] 


N-Gram 模 型 利用 上 下 文中 的 t-1 个 词 预测 下 一 个 词 的 构造 条 件 概率 可 以 表示 为 : 


P(w, | ai) 一 PC | w, 


fi 一 由 十 ] 
为 了 避免 新 的 组 合 带 来 的 0 概率 分 配 问题 ， 可 以 考虑 使 用 平滑 的 方法 进行 处 理 ， 


词 向 量 (Word Embeddings, Distributed Representation for Words) : 词 向 量 是 把 单词 根据 它 的 上 下 文 关系 映射 到 一 
个 指定 维度 m 的 概率 空间 中 。 词 向 量 通过 整个 神经 网 络 的 层 层 训 | 练 ， 在 结束 时 ， 得 到 所 有 的 词 向 量 ， 使 得 语义 相近 的 词 它们 的 词 
向 量 也 近似 。 

昼 经 网 络 语言 模型 (Neural Network Language Model) : wt 是 第 t 个 单词 ， 词 典 V 是 单词 的 有 限 集合 ， 有 wtEV。 任 意 单 
词 wt 都 用 m 维 的 特征 向 量 来 表示 ， 词 典 中 有 | V | 个 单词 ， 都 可 以 映射 到 | V | xm 映射 矩阵 C。 假 设 每 个 词 都 用 One-Hot 向 量 表 


A 


CHEREE LARZ: 


Bt (w,) = (w,) 1] 
E (w,)> (w), bii (w,)> 


(Wy) 。 (W3) m = ( Ww, ) m 


假设 昼 经 网 络 结构 分 为 投影 层 、 输 入 层 、 隐 藏 层 和 输出 层 4 个 部 分 。 输 入 层 的 昼 经 元 数 为 n， 同 时 确定 词 的 滑动 窗口 是 n， 输 
入 层 输 入 的 是 One-Hot 的 词 癌 量 且 到 投影 层 的 息 孟 是 C， 大 小 为 |VM|jxm、 投 影 层 到 隐藏 层 的 权重 和 矩阵 为 H、 偶 移 所 阵 为 B、 隐 藏 
层 到 输出 层 的 权重 和 夫 阵 为 U、 偶 移 算 阵 D。 那 么 整个 NNLM 模 型 可 以 用 Bengio 论 文 的 原 图 如 图 ?5-3 所 示 。 
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图 5-3 Neural Network Language model 
生成 NNLM 的 步骤 根据 图 5-3 结 构 前 述 如 下 。 


因为 仍然 延续 了 N-Gram 的 条 件 概率 表示 为 


P(w, lw, ) =~ Pw, Wi ) =f(w,, Wiis 3 Wi n429 J 


所 以 词 wt 的 条 件 概 率 用 之 前 的 t-1 个 词 来 表示 可 以 简化 为 之 前 的 n-1 个 词 来 表示 。 我 们 用 大 小 为 n 的 疹 动 窗口 来 表示 N-Gram 


的 条 件 概率 ， 所 以 步骤 为 : 
1) 定义 一 个 滑动 的 窗口 大 小 为 n 在 语 料 间 滑 动 ， 如 果 窗 口 的 最 后 一 个 词 是 wt， 那 么 从 前 面 wt-n+1 到 wt-1 的 n-1 个 词 都 表示 


为 One-Hot 的 形式 ， 并 作为 输入 层 的 输入 。 
2) One-Hot 词 编码 从 输入 层 到 投影 层 ， 会 根据 1 的 位 置 通过 映射 撼 阵 CE RIMxm， 把 属于 这 个 词 的 m 维 向 量 C (wt) 抽出 


来 ， 既 是 将 每 个 Dne-Hot 词 编码 映射 为 一 个 m 维 的 特征 向 量 : 


C (w,) =w,C 


3) 从 n-1 个 投影 层 到 隐藏 层 是 全 连接 的 形式 ，n-1 个 词 特征 向 量 C (wt-h+1) ，.…，C (Wet) 合并 为 一 个 (n-1) m 维 的 向 
= (C (wt-n+1) ，…，C (wt1) ) ， 如 果 用 x 来 表示 ， 即 : 


X= (C (wen+1) p eG (wea) ) 


使 用 隐藏 层 的 tanh 函 数 对 x 进 行 激活 ， 权 重 和 矩阵 为 H， 含 移 乱 阵 为 B: 
]=Hx+B 


4) Mamere AEE, E ASoftmaxkh A AUE FU AEAF, SAh : 
| 


et 
p(w, |w, 9 s 上 -n+2， Wi onai) = 


y | e 


其 中 y=D+Wx+Utanh (B+Hx) ,模型 一 共有 6 个 参数 D、W、U、B、H、C。 如 果 输 入 层 可 以 直接 连接 到 输出 层 ， 那 么 束 
可 以 选择 参数 Wzx#0， 人 否则 令 W=0。 假 设 隐藏 层 的 神经 元 个 数 是 hn， (n-1) m 维 的 向 量 (C (Wt-n+1) ,，… C (Wey) ) , It 


时 隐藏 层 的 运算 : hx (n-1) m 乘 以 (n-1) mx1 得 到 hx1。 输 出 层 的 运算 : |V|xh 乘 以 hx1 得 到 |V|x1。 


模型 的 训练 需要 最 大 化 的 以 下 的 似 然 函 数 ， 假 设 参数 6 表示 6 个 参数 D、W、U、B、H、C。R (6) 为 正则 项 。 


| 
f = È log fiw, ? Wi -1 » "4 Wi- n+2 ? Wn ` 0) +R(0) 
使 用 梯度 下 降 的 方法 更 新 参数 ， 令 mn 为 所 需要 的 步 长 。 


dlogp(w, | wi) ms Wi _ n+2 9 Wong) 


oon 30 


5.1.3  CBOWFUSkip-Gram 


NNLM 里 的 大 量 参数 使 得 计算 变 得 异常 复杂 和 困难 。Mikolov 在 NNLM 模 型 的 基础 上 ， 提 出 了 CBOW 和 Skip-Gram 这 两 种 
模型 。CBOW 模 型 是 在 原 NNLM 的 结构 上 ， 去 掉 了 隐藏 层 ， 这 样 使 得 投影 层 和 直接 连接 到 了 Softmax 输 出 ， 而 原理 和 NNLM 一 
样 ， 也 是 用 被 估计 词 的 上 下 文 来 预测 这 个 词 的 向 量 。 而 Skip-Gram 的 预测 方法 和 CBOW 相 反 ， 是 用 某 个 词 来 预测 这 个 词 的 上 下 
文 。 为 了 减少 计算 量 ，Mikolov 提 出 了 两 套 解 决 方法 ， 一 种 是 Hierarchical Softmax， 另 外 一 种 是 Negative Sampling, 


Hierarchical Softmax 是 把 输出 层 改 造成 了 基于 词 频 设计 的 Huffman Tree。 用 叶子 的 节点 表示 每 个 词 ， 通 过 根 节点 到 词 的 
路 径 为 词 编码 ， 从 而 计算 得 到 这 个 词 的 词 向 量 。 越 是 词 频 高 的 词 ， 离 Tree 的 根 节点 就 越 近 ， 就 更 加 容易 被 搜索 和 计算 。 


Negative Sampling 的 方法 是 mikolov 精 益 求 精 的 另外 一 种 作法 ， 尽 管 Hierarchical softmax 配 合 的 CBOW 和 Skip-Gram 的 
计算 已 经 达到 了 实用 的 程度 ， 但 是 作者 依然 对 计算 速度 不 够 满意 。 在 简化 Noise Contrastive Estimation 的 基础 上 ， 人 简化 得 到 
Negative Sampling 的 随机 负 有 采样 方法 代 蔡 Hierarchical Softmax 的 Huffman Tree 结构 。 


5.1.4 Huffman 编 码 与 Huffman tree 


Huffman Tree 是 市 权重 的 最 优 二 叉 树 ， 构 造 一 颗 二 叉 树 使 得 带 权 重 的 路 径 长 度 值 最 小 ， 也 束 是 权重 越 大 的 书后 离 二 又 树 的 
根 忆 点 束 越 乱 ， 反 之 权重 越 小 ， 相 对 离 根 节点 的 路 径 距 离 也 就 越 长 。 


1) Huffman Tree 的 构造 方法 
a. 假 设 存在 n 个 权重 值 的 序列 9={961，092，.….，09n}， 并 将 它们 每 一 个 视 为 一 棵 单独 的 树 。 


b. 从 大 到 小 为 权重 序列 重新 排序 ， 找 出 权重 最 小 的 两 棵 树 作 为 左右 子 树 构造 出 一 颗 新 的 二 又 树 ， 我 们 可 以 指定 左右 子 树 哪 个 
权重 更 小 一 些 (比如 左边 比 右边 小 ) ， 新 的 二 又 树 的 根 节点 的 权重 是 两 个 子 节点 权重 的 和 |。 


c. 在 原 集合 中 删除 已 经 合并 的 树 ， 并 把 新 的 树 加 入 原 集合 
d. 重 复 b，< 两 个 步骤 直到 集合 中 只 有 一 颗 树 为 止 。 


如 果 给 出 一 句 话 “我 ”“ 爱 ”“ 北 京 ”“ 天 安 门 ”， 且 它们 在 整 篇 文章 中 的 出 现 频率 分 别 是 1、2、3、4， 则 依据 词 出 现 的 
频率 来 当 作 权 重 来 构建 一 颗 Huffman tree, 


- 根据 构建 Huffman Tree 的 步骤 ， 首 先 我 们 挑选 取 值 最 小 的 两 个 值 ，1 和 2 作为 左右 子 树 合并 构建 新 的 二 又 树 (权重 值 小 的 为 
子 树 ， 大 的 为 右 子 树 ) ， 新 的 二 又 树 节点 值 为 3， 并 删 去 原来 的 1] 和 2 用 新 二 又 树 来 代 蔡 ， 得 到 了 我 们 的 第 一 步 。 如 图 5-4 所 示 。 
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图 5-4 ”利用 权重 值 构建 简单 的 Huffman Tree 


` 然后 在 新 的 集合 中 挑选 两 个 最 小 的 权重 ，3 和 3。 合 并 两 个 子 树 构成 新 的 二 又 树 ， 它 的 根 节 点 的 权重 值 是 6。 并 删 去 旧 的 部 
分 加 入 新 的 二 又 树 得 到 第 二 步 。 如 图 5-4 所 示 。 


最 后 在 新 的 集合 ，4 和 根 节 点 为 6 的 二 又 树 中 ， 把 二 者 合并 ，4 较 小 作为 左 子 树 ，6 比 较 大 则 作为 右 子 树 ， 它 们 新 的 根 节 点 为 
10。 删 去 旧 的 部 分 ， 只 留 下 新 的 二 又 树 ， 我 们 发 现 只 有 唯一 的 新 的 二 又 树 存在 。 新 的 二 又 树 即 为 所 求 的 Huffman Tree. 


2) Huffman 编 码 


Huffman Tree 在 构造 的 过 程 中 统一 给 出 左右 子 树 大 小 的 约定 ， 在 5.1.4 节 中 左 子 树 比 右 子 树 的 权重 值 小 。 如 果 采 用 二 进 制 编 
码 的 方式 ， 则 左 节 点 标识 为 0， 右 节点 标识 为 1。 根 据 这 个 规则 我 们 尝试 为 “我 ”“ 爱 ”“ 北 京 ” “天 安 门 ”4 个 词 找 出 它们 的 
Huffman 编 码 ， 如 图 5-5 所 示 。 


图 5-5 ”构造 中 文 词 的 Huffman 编 码 


则 “我 ”对 应 的 编码 为 110，“ 爱 ”对 应 的 编码 为 111，“ 北 京 ” 对 应 的 编码 为 10，“ 天 安 门 ”对 应 的 编码 为 0。 


后 面前 述 的 CBOW-Hierarchical Softmax 和 Skip-Gram-Hierarchical Softmax 模 型 都 是 根据 训练 文本 中 词 出 现 的 频率 来 构 
建 Huffman 树 ， 并 产生 Huffman 编 码 。 然 后 根据 CBOW 或 者 Skip-Gram 的 模型 在 Softmax 层 转化 成 Huffman 编 码 的 
Hierarchical Softmax， 用 来 对 生成 的 词 向 量 进行 简便 计算 。 介 绍 完 Huffman Tree 和 Huffman 编 码 ， 接 下 来 利用 这 部 分 知识 来 
设计 CBOW-Hierarchical Softmax 模 型 。 


5.1.5 CBOW-Hierarchical Softmax 


CBOW (Continuous Bag-of-Words Model) 是 对 NNLM 模 型 的 简化 (如 图 5-6) ， 模 型 只 包括 了 输入 层 (Input 
Layer) 、 投 影 层 (Projection Layer) 和 输出 层 (Output Layer) 。 如 果 已 知 当 前 词 是 wt， 上 下 文 词 是 wt-2，wt- 


1，Wt+1，Wt+2。 模 型 CBOW 可 以 看 作 是 利用 上 下 文 Wt-2，Wt-1，Wt+1，Wt+2， 来 预测 当前 词 wt 的 模型 。 


INPUT PROJECTION OUTPUT 


w(t-2) 


w(t-1) 


S \ SUM 


w(t+1) 


w(t+2) 


图 5-6 Continuous Bag-of-Words Model 


根据 之 前 介绍 的 NNLM 模 型 可 以 知道 ， 计 算 每 个 词 的 词 向 量 只 和 这 个 词 与 其 对 应 的 上 下 文 有 关系 ， 即 是 与 
(Context (w) ，w) 有 天 ， 一 般 我 们 可 以 给 定 一 个 窗口 来 限制 这 个 词 的 上 下 文 Context (w) 。 目 标 立 数 可 以 用 对 数 似 然 函数 


logP(w | Context(w) ) 


wet 
CBOW-Hierarchical Softmax 模 型 框架 (如 图 5-7) : 


1) WAE (Input Layer) : 所 求 词 w 的 上 下 文 Context (w) 中 2c 个 词 的 词 向 量 ， 每 个 词 向 量 都 给 定 固定 的 维度 m， 作 为 
输入 层 的 输入 数据 。 


v (Context (w) 1) , «tt, v (Context (w) 2) 


v( Context(w),) e R” 


2) #28412 (Projection Layer) : 输入 层 的 2c 个 词 向 量 在 投影 层 做 加 和 ， 生 成 累加 向 量 ”- 2 


v(Context(w),) v( Context(w)2) v( Context(w)2-) 
Input Layer C C = a 


Summation | 
Projection Laye 


SZ 


Output Layer 


Sample: (Context(w), w) 


图 5-7 CBOW-Hierarchical Softmax 模 型 


3) 输出 层 (Output Layer) : 输出 层 在 Hierarchical Softmax 模 型 中 对 应 一 颗 Huffman Tree, Huffman Tree 的 叶子 节点 
为 语 料 中 出 现 过 的 词 ， 构 造 Huffman Tree 的 权重 值 为 这 个 词 在 语 料 中 的 词 频 。 如 果 词 典 中 词 的 个 数 为 N， 那 么 叶子 的 节点 数 也 
是 N， 非 叶子 节 扣 的 数目 为 N-1 个 。 


Hierarchical Softmax 比 普通 的 Softmax 计 算 要 简单 。 假 设 词典 的 个 数 是 N， 那 么 Hierarchical Softmax 不 需要 像 Softmax 
那样 计算 所 有 词 的 打分 。 需 要 计算 的 只 是 根 节点 到 叶子 节点 路 径 的 概率 ， 而 路 径 最 大 的 深度 是 Log (N) 。 时 间 复 杂 度 从 
O (N) 降 到 O (logN) 。 


对 于 这 两 个 模型 来 训 ， 最 后 的 目标 就 是 优化 目标 函数 ， 并 得 到 最 大 值 。 


人 = > logP( w 


Wwe £ 


Context(w ) ) 


当 输 出 层 是 简单 的 Softmax， 那 么 似 然 函数 可 以 表示 为 : 


exp(e(w)X,) 
È ,nexp(e(w )X,) 


其 中 e (w) , e (w') 是 未 知 参数 ， 可 以 用 最 大 似 然 销 数 的 方法 进行 求解 。 


P(w | Context(w)) = 


当 输 出 层 是 Hierarchical Softamx， 则 Huffman Tree 上 所 有 非 叶 子 证 点 9 都 可 以 看 做 一 个 二 分 类 。 如 果 用 dj 表示 二 叉 树 路 
径 ，dj=0 表 示 左 边 ，dj=1 表 示 右 边 ， 那 么 : 


p (d=0|X,, 0) =o (X,0) 
p (d=1|X,, 0) =1-0 (X,6) 


oa(X,,0) = l 


1 
其 中 +e” ”， 是 利用 逻辑 回归 计算 概率 的 正 样本 。 


似 然 图 数 可 以 写成 ， 上 是 到 任意 词 w 路 径 上 节点 的 个 数 : 


Jw 
P(w | Context(w)) = fpd X, 6. 
j=2 


其 中 
pedt |X,,0°,) =(o( X10") ]'- 7 (1 -o( X10") 1% 


则 得 到 似 然 函数 为 : 


[w 


= X loff | Co X95) 1% (1 -ooa 


weC 
[wW 


= >》 2 | (1 — d’ )log[ o (X 0 1)」] + d;log| 1 - o(X 0) | | 


weC j= 
两 边 取 log 计 算 ，L (w, j) 表示 用 来 进行 梯度 计算 的 累加 式 : 
L(w, j) =(1 -d;)loglo(X,0;1)] +d 'logl1 -o(X,0"))] 
VIRRO- HTA 


Llw, j) 0 
00; 00", 


=|(1-d")[1-0(X,0".,) ] -d’a(X,6"_,) |X 
=[1-d’? -o0(X,0".,) |X 


— (1 - d; ) log o (X,0; i a) ] +d; log 1 -0(X,,6; j= a) | 


4 -的 进 代 优化 公式 ，n 为 学 习 率 : 


0 :=0 +TLL-d -o(X,0".,) JX, 


J j-l 
OL(w, j) w ' 
Lid -Or(X 0) 16 9; 


OCR) ERER : 


i 


jw 


v(w): = v(w) +H [1 - di - o(Xi6",) Je", 
j=2 


5.1.6 Skip-Gram-Hierarchical Softmax 


Skip-Gram (Continuous Skip-Gram Model) 模型 和 CBOW 一 样 ， 也 包括 了 输入 层 (Input Layer) 、 投 影 层 
(Projection Layer) 和 输出 层 (Output Layer， 如 图 5-8 所 示 。 如 果 已 知 当 前 词 是 Wt， 上 下 文 词 是 Wt-2，Wt- 
1，Wit+1，wt+2。 模 型 Skip-Gram 可 以 看 作 是 利用 当前 词 wt 来 预测 上下文 wt-2?，wt-1，wt+1，wt+2 的 模型 。 和 CBOW 的 输入 和 


预测 正好 相反 。 


INPUT PROJECTION OUTPUT 


w(t-2) 


w(t-1) 


w(t) 


w(t+1) 


w(t+2) 


图 5-8 Continuous Skip-Gram Model 


对 于 Hierarchical Softmax 的 Skip-Gram 模 型 ， 需 要 优化 的 目标 似 然 函 数 是 : 


> logp( Context( w) |w) 


wel 
` log [| p(u |w) 
wet u e Context ( w ) 


利用 Hierarchical Softmax 来 表示 p (ulw) 
Ju 
t Li 
2log TE [pCt vw), 6) 
wet u € Context(w) j=2 
因为 
Ll Ll T nu ] -d' T nu du 
p(d 'v(w), 0;,_1) =|a(v(w) 6:1) | ‘lL 1-a(v(w) Oi) ] ! 


蔡 换 后 有 


ce 之 log I] TI [o(o(w) O00)] [1 - o(o(w) 9)1°)| 


u e Context ( 


La 2 2 pA TE TE log[o(v(w) 0) |] +d; + log| 1 -ol(v(w) 6)]| 


w e Cue Context ( 
L (w, u, j) 表示 用 来 进行 梯度 计算 的 累加 式 ， 对 4%-: 微 分 : 


a ae T g E) > log[o(v(w) 0 1)] +d; + logl 1 -o (v(w) 6;)]) 
j-1 


=(1 peen -o (v(w) 0j) 1v(w) -djo (v(w) 0 1)v(w) 
=(1-d; -o(v(w) 0 1))v(w) 


4- 的 迭代 优化 公式 ，n 为 学 习 率 : 


oii: =8) tml (1 -do(v(w) "6", )) low) 


L (w, u, j) 表示 用 来 进行 梯度 计算 的 罕 加 式 ， 对 v(w) 微分 : 


Llw, U, ]) . T T nu Ll 
a) i -o (v(w) 0") lO 
v (w) BARZE: 


v(w): = v(w) +n X Y -E -o(v(w)'0",) 16%, 


u e Context(w) j =2 


5.1.7 FastText 
FastText 的 网 络 架构 和 Continuous Bag-of-Words CBOW 十 分 相似 。 但 是 不 同 于 CBOW， 它 主要 用 于 文本 分 类 ， 虽 然 
FastText 也 是 会 有 词 向 量 的 产生 ， 但 这 时 Words Embedding 是 文本 分 类 的 附属 品 。 


对 于 短文 本 的 文本 分 类 来 说 ， 把 短文 本 句子 利用 词 宾 模 型 来 表示 ， 天 利用 线性 分 类 器 做 文本 分 类 ,一直 都 是 一 种 简单 有 效 的 


分 类 手段 。 
FastText 网 络 模型 的 输入 层 是 一 句 话 或 一 段 文字 的 词 序列 的 Word Embedding 辣 量 。 


这 些 特征 向 量 被 平均 后 生成 文本 向 量 。 输 出 层 也 采用 Hierarchical Softmax， 利 用 分 类 标签 的 频率 做 成 HuffmanTree 的 叶 
子 节点 。 每 一 个 节点 都 联系 着 一 个 概率 ， 概 率 值 等 于 从 root 根 节点 到 属于 这 个 类 的 叶子 节点 的 。 如 果 叶 子 节点 是 的 深度 是 |+1 ， 
则 它们 的 父 节点 分 布 是 n1，…，nl (如 图 5-9 所 示 ) 。 


n(y,, 1) 


n(y,, 2) 


n(y,, 3) 
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图 5-9 Hierarchical Softmax FastText Model 


那么 它 的 概率 可 以 表示 为 : 


P( Nizi, 


Word2vec CBOW 模 型 和 FastText 模 型 的 输入 都 是 用 词 向 量 的 表示 形式 ， 为 了 优化 计算 采用 了 Hierarchical Softmax 模 型 ， 
利用 Term 或 分 类 Label 的 出 现 频率 来 构建 Huffman Tree， 并 作为 Huffman Tree 的 叶子 节点 。CBOW 的 输入 为 Context 
Window 里 面 的 Term， 输 出 层 对 应 的 是 每 一 个 Term 的 概率 最 大 。FastText 的 输入 是 整个 句子 的 内 容 ， 包 从 Term， 还 包含 
n=gram。 输 出 层 对 应 的 是 分 类 的 Lable。CBOW 的 目的 是 通过 反复 迭代 得 到 所 求 的 词 辕 量 ，FastText 是 换 历 树 的 所 有 节点 ， 找 


到 概率 最 大 的 分 类 Label。 


FastText 利 用 了 类 别 (Class) 不 均衡 这 个 事实 (一些 类 别 出 现 次 数 比 其 他 的 更 多 ) ， 通 过 使 用 Huffman 算 法 建立 用 于 表征 


类 别 的 树 形 结 构 。 因 此 ， 频 繁 出 现 类 别 的 树 形 结构 的 深度 要 比 不 频繁 出 现 类 别 的 树 形 结构 的 深度 要 小 ， 这 也 使 得 计算 效率 进一步 
得 到 提高 。 


由 于 类 别 不 均衡 ，FastText 会 利用 一 些 类 别 出 现 次 数 比 别 的 类 更 多 的 事实 ， 使 用 Huffman Tree 建立 了 用 类 别 做 特征 的 树 结 
构 ， 类 别 Label 为 叶子 节点 ， 频 繁 出 现 的 类 别 的 根 路 径 比 不 频繁 的 类 别 深度 要 小 ， 计 算 更 高 效 。 


5.1.8 词 的 全 局 同 量 表示 
词 的 全 局 向 量 表示 (Global Vector for Word Representation, Glove) 。 这 个 模型 的 主要 特点 在 于 ， 全 局 语 料 的 词 频 统 
计 信 息 可 以 直接 的 被 Glove 模 型 捕捉 到 ， 然 后 生成 可 以 反映 一 定语 义 特征 和 相似 度 的 由 实数 组 成 的 多 维 的 词 向 量 。 


模型 下 先 定义 出 共 现 起 阵 X (Word-Word Co-occurrence) ， 和 矩阵 中 的 每 个 元 素 Xi 翅 示 词 Wj 出 现在 词 W 的 上 下 文中 ， 既 记 
wi，WwWi 在 制定 的 语义 上 下 文 窗口 中 共 现 次 数 。 


词 Wi，wi 的 共 现 表示 出 了 它们 一 定 的 相似 性 ， 如 果 需 要 判断 它们 之 间 的 差别 ， 我 们 必须 要 引入 更 多 的 其 他 的 词 Vk， 这 样 就 
可 以 知道 wwj 和 哪些 词 更 加 相关 。 


如 图 5-10 所 示 ， 假设 wi=ice，wj=steam， 如 果 词 wkf0wi=ice 更 加 相关 ， 那 么 wk=solid 束 更 合适 ,我们 希望 PiyPjk 的 值 更 
oe 


P (k=solid|ice) /P (k=solid|steam) =8.9 


同样 的 ， 如 果 和 希望 词 Wk 和 wi=steam 更 加 相关， 那么 wk=gas 更 加 合适 ， 我 们 希望 PiWPjk 的 值 更 小 : 


P (k=gas|ice) /P (k=gas|steam) =8.5 X10? 


Probability and Ratio k = solid k= gas k=water k= fashion 
P(kjice) 66x10> 3.0 x 10° 1.7 x 105 


P(k\steam) 7.8 x 107 2.2 x 10° 1.8 x 10° 
P(kjice)/P(k\steam) 5 8.5 x 107 1.36 0.96 


图 5-10 Co-occurrence Probabilities for Target Words Ice and Steam With Selected Context Words 
根据 上 述 的 对 比 ， 可 以 看 出 用 两 个 共 现 概率 的 两 是 一 个 比较 好 的 方法 。 与 原始 概率 相 比 ， 这 种 比率 能 更 好 地 区 分 相关 词 
(solid, gas) 和 无 关 词 (water, fashion) ， 并 能 更 好 的 摘 述 看 两 个 相关 词 乙 间 的 天 系 。 这 种 概率 比率 需要 三 个 词 wj，wj 和 和 
Wk 来 共同 决定 ， 它 的 一 般 形 式 可 以 表示 如 下 : 


F(w., Ws, W , i = 


基于 交换 对 称 性 ， 推 导 得 到 : 


X 
F(w, w, ) =j. = 


“F(w; w,) =exp(w; i, ) 


y 


L 
得 到 满足 词 癌 量 的 方程 : 
T ~ , 六 | N 
w: w, =log( X.,) —log( X.) =log( X,) -b.-b, 
EERE DENRA, DA—Tweightingeeaxt (Xj) ， 得 到 损失 函数 : 
| 
T 一 = T | .\ 2 
J = SY f(X;) (w; w, +b, +b, - log(1 + X,)) 
i jel 
| ( A o ) À ifx < X nax 


f(x) = 


] otherwise 


5.2 ASFRNZSCNN 


5.2.1 “大 积 网 络 CNN 理 论 


在 泛 了 为 分 析 中 ， 卷 积 Convolution 用 来 表示 两 个 不 同 国 数 f (x) Fg (x) 生成 第 3 个 函数 h (x) 的 数学 运算 ， 用 来 表示 函数 
f (x) 与 函数 g (x) 经 过 翻转 和 平移 的 重 芭 部 分 的 面积 ， 它 的 连续 水 数 表 达 式 : 


h(x) = f(x)*g(x) = | f(r) g(a - 7T)d, 


h (x) =f (x) *g (x) =f (1) g (x1) 
在 数字 信号 处 理 中 ， 卷 积 束 是 信和 号 B 与 信号 A 错开 时 间 的 内 积 ， 错 开 的 时 间 长 度 就 是 卷 积 结果 的 自 变 量 。 


那么 在 图 像 上 可 以 把 它 看 成 一 个 给 定 的 Filter Window (滤波 器 ) 在 图 像 上 扫 过 。 
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左边 的 灰 度 Image， 其 0 代表 黑色 ，1 代 表 日 色 。 然 后 卷 积 核 开始 在 图 像 上 进行 卷 积 。 按 照 离散 版 的 卷 积 公式 ， 卷 积 核 与 
Image 算 阵 对 应 像素 相 乘 然后 求 科 ， 当 滤波 器 扫 遍 整个 矩阵 最 终 得 到 完整 卷 积 。 人 简单 地 说 ， 如 果 输入 图 像 上 某 个 形状 看 起 来 很 像 
过 滤器 表示 的 曲线 ， 那 么 所 有 点 积 加 在 一 起 将 会 得 出 一 个 很 大 的 值 。 如 果 图 像 的 部 分 和 曲线 检测 器 过 滤器 不 存在 对 应 或 很 不 相 
似 ， 则 所 有 点 积 的 容 加 会 得 到 一 个 很 小 的 值 。 


卷 积 神经 网 络 (Convolutional Neural Networks) 与 普通 神经 网 络 非 常 相 似 ， 它 们 都 由 具有 可 学 习 的 权重 和 偏 置 常量 
(Bias) 的 神经 元 组 成 。 


卷 积 伸 经 网 络 是 一 种 特殊 的 深层 的 神经 网 络 模型 ， 一 方面 它 的 神经 元 间 的 连接 是 非 全 连接 的 ， 另 一 方面 同一 层 中 某 泽 神经 元 
之 间 的 连接 的 权重 是 共享 的 ( 即 相同 的 ) 。 它 的 非 全 连接 和 权 值 共享 的 网 络 结构 使 之 更 类 似 于 生物 神经 网 络 ， 降 低 了 网 络 模型 的 
复杂 度 ， 减 少 了 权 值 的 数量 ， 其 特征 提取 如 图 5-11 所 示 。 


ae 最 大 池 化 模型 
非 线性 模型 


AZAR + He 


图 5-11 CNN 特征 提取 和 Max pooling 


SHE (Convolutional Layer) : 卷 积 神经 网 络 中 每 层 卷 积 层 由 若干 卷 积 单元 组 成 如 图 5-11 所 示 ， 每 个 卷 积 单元 的 参数 都 
是 通过 反 向 传播 算法 优化 得 到 的 。 卷 积 运算 的 目的 是 提取 输入 的 不 同 特征 ， 第 一 层 卷 积 层 只 能 提取 一 些 低级 的 特征 如 边缘 、 线 条 
和 角 等 层级 ， 更 多 层 的 网 络 能 从 低级 特征 中 和 迭代 提取 更 复杂 的 特征 。 


线性 整流 层 (Rectified Linear Units Layer, ReLU Layer) : 这 一 层 神 经 的 活性 化 函数 (Activation Function) 使 用 线性 


整流 (Rectified Linear Units, ReLU) 。 


-KE (Pooling Layer) : 通常 在 卷 积 层 之 后 会 得 到 维度 很 大 的 特征 ， 将 特征 切 成 几 个 区 域 ， 取 其 最 大 值 或 平均 值 ， 得 
到 新 的 、 维 度 较 小 的 特征 。 


全 连接 层 (Fully-Connected Layer) : 将 所 有 局 部 特征 结合 变 成 全 局 特征 ， 用 来 计算 最 后 每 一 类 的 得 分 。 
pleats 


者 积 网 络 通过 在 相 邻 两 层 乙 间 强 制 使 用 局 部 连接 模式 来 利用 图 像 的 空间 局 部 特性 ， 在 第 m 层 的 隐 层 单元 只 与 第 m-1 层 的 输入 
单元 的 局 部 区 荆 有 连接 ， 第 m-1 层 的 这 些 局 部 区 域 书 称 为 空间 连续 的 接受 域 。 可 以 将 这 种 结构 摘 述 如 下 。 


设 第 m-1 层 为 视网膜 输入 层 ， 第 m 层 的 接受 域 的 宽度 为 3， 也 就是 说 该 层 的 每 个 单元 仅 与 输入 层 的 3 个 相 邻 的 神经 元 相连 ， 第 
m 层 与 第 m+1 层 具有 类 似 的 链接 规则 ， 如 图 5-12 所 示 。 


Layer m+| 


Layer m 


图 5-12 CNN#4 Fh IA E4 


可 以 看 到 m+1 层 的 神经 元 相对 于 第 m 层 的 接受 域 的 宽度 也 为 3， 但 相对 于 输入 层 的 接受 域 为 5， 这 种 结构 将 学 习 到 的 过 滤器 
(对 应 于 输入 信号 中 被 最 大 激活 的 单元 ) 限制 在 局 部 空间 模式 (因为 每 个 单元 对 它 接受 域外 的 variation 不 做 反应 ) 。 从 图 5-12 
也 可 以 得 出 ， 多 个 这 样 的 层 堆 堵 起 来 后 ， 会 使 得 过 滤器 (不 再 是 线性 的 ) 逐 新 成 为 全 局 的 (也 束 是 覆 蘑 到 了 更 大 的 视 党 区 域 ) 。 
例如 图 5-12 中 第 m+1 层 的 神经 元 可 以 对 宽度 为 5 的 输入 进行 一 个 非 线性 的 特征 编码 。 


5.2 ”大 积 网 络 CNN 


5.2.1 大 积 网 络 CNN 理 ie 


在 泛 函 分 析 中 ， 卷 积 Convolution 用 来 表示 两 个 不 同 孙 数 f (X) Mg (x) 生成 第 3 个 函数 h (x) 的 数学 运算 ， 用 来 表示 函数 
f (x) 与 溺 数 g (x) 经 过 翻转 和 平移 的 重 革 部 分 的 面积 ， 它 的 连续 了 消 数 表达 式 : 


h(x) = f(x) *e(x) = | f(T) g(x -7)d， 


h (x) =f (x) *g (x) =2f (t) g (x1) 
在 数字 信号 处 理 中 ， 郑 积 丈 是 信号 B 与 信号 A 错开 时 间 的 内 积 ， 错 开 的 时 间 长 度 束 是 卷 积 结果 的 目 变 量 。 


那么 在 图 像 上 可 以 把 它 看 成 一 个 给 定 的 Filter Window (滤波 器 ) 在 图 像 上 扫 过 。 
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左边 的 灰 度 Image， 其 0 代表 黑色 ，1 代 表 日 色 。 然 后 卷 积 核 开始 在 图 像 上 进行 卷 积 。 按 照 离散 版 的 卷 积 公式 ， 卷 积 核 与 
Image 算 阵 对 应 像素 相 乘 然后 求 科 ， 当 滤波 器 扫 瑶 整个 矩阵 最 终 得 到 完整 卷 积 。 人 简单 地 说 ， 如 果 输 入 图 像 上 某 个 形状 看 起 来 很 像 
过 滤器 表示 的 曲线 ， 那 么 所 有 点 积 加 在 一 起 将 会 得 出 一 个 很 大 的 值 。 如 果 图 像 的 部 分 和 曲线 检测 器 过 滤器 不 存在 对 应 或 很 不 相 
似 ， 则 所 有 点 积 的 容 加 会 得 到 一 个 很 小 的 值 。 


壮 积 神经 网 络 (Convolutional Neural Networks) 与 普通 神经 网 络 非 常 相似 ， 它 们 都 由 具有 可 学 习 的 权重 和 偏 置 常量 
(Bias) 的 神经 元 组 成 。 


卷 积 伸 经 网 络 是 一 种 特殊 的 深层 的 神经 网 络 模型 ， 一 方面 它 的 神经 元 间 的 连接 是 非 全 连接 的 ， 另 一 方面 同一 层 中 某 些 神经 元 
之 间 的 连接 的 权重 是 共享 的 ( 即 相同 的 ) 。 它 的 非 全 连接 和 权 值 共享 的 网 络 结构 使 之 更 类 似 于 生物 神经 网 络 ， 降 低 了 网 络 模型 的 
复杂 度 ， 减 少 了 权 值 的 数量 ， 其 特征 提取 如 图 5-11 所 示 。 


了 最 大 池 化 模型 
非 线性 模型 


AZAR + He 


图 5-11 CNN 特征 提取 和 Max pooling 


SE (Convolutional Layer) : 卷 积 神经 网 络 中 每 层 卷 积 层 由 若干 卷 积 单元 组 成 如 图 5-11 所 示 ， 每 个 卷 积 单元 的 参数 都 
是 通过 反 向 传播 算法 优化 得 到 的 。 卷 积 运算 的 目的 是 提取 输入 的 不 同 特征 ， 第 一 层 卷 积 层 只 能 提取 一 些 低级 的 特征 如 边缘 、 线 条 


和 角 等 层级 ， 更 多 层 的 网 络 能 从 低级 特征 中 迭代 提取 更 复杂 的 特征 。 


线性 整流 层 (Rectified Linear Units Layer, ReLU Layer) : 这 一 层 神 经 的 活性 化 函数 (Activation Function) 使 用 线性 


整流 (Rectified Linear Units, ReLU) 。 


;也 化 层 (Pooling Layer) : 通常 在 卷 积 层 之 后 会 得 到 维度 很 大 的 特征 ， 将 特征 切 成 几 个 区 域 ， 取 其 最 大 值 或 平均 值 ， 得 
到 新 的 、 维 度 较 小 的 特征 。 


- 全 连接 层 (Fully-Connected Layer) : 将 所 有 局 部 特征 结合 变 成 全 局 特征 ， 用 来 计算 最 后 每 一 类 的 得 分 。 


卷 积 网 络 通过 在 相 邻 两 层 之 间 强 制 使 用 局 部 连接 模式 来 利用 图 像 的 空间 局 部 特性 ， 在 第 m 层 的 隐 层 单元 只 与 第 m-1 层 的 输入 
单元 的 局 部 区 域 有 连接 ， 第 m-1 层 的 这 些 局 部 区 域 被 称 为 空间 连续 的 接受 域 。 可 以 将 这 种 结构 摘 述 如 下 。 


设 第 m-1 层 为 视网膜 输入 层 ， 第 m 层 的 接受 域 的 宽度 为 3， 也 就 是 说 该 层 的 每 个 单元 仅 与 输入 层 的 3 个 相 邻 的 神经 元 相连 ， 第 
m 层 与 第 m+1 层 具有 类 似 的 链接 规则 ， 如 图 5-12 所 示 。 


Layer mt+l 


Layer m 


Layer m-l 


图 5-12 CNN#4 Fm IA 4 


可 以 看 到 m+1 层 的 神经 元 相对 于 第 m 层 的 接受 域 的 宽度 也 为 3， 但 相对 于 输入 层 的 接受 域 为 5， 这 种 结构 将 学 习 到 的 过 滤器 

(对 应 于 输入 信号 中 被 最 大 激活 的 单元 ) 限制 在 局 部 空间 模式 (因为 每 个 单元 对 它 接受 域外 的 variation 不 做 反应 ) 。 从 图 5-12 

也 可 以 得 出 ， 多 个 这 样 的 层 堆 堵 起 来 后 ， 会 使 得 过 滤器 (不 再 是 线性 的 ) 逐渐 成 为 全 局 的 (也 束 是 覆 菏 到了 更 大 的 视 党 区 域 ) 。 
例如 图 5-12 中 第 m+1 层 的 神经 元 可 以 对 宽度 为 5 的 输入 进行 一 个 非 线性 的 特征 编码 。 


5.2.2 利用 CNN 进 行文 本 分 类 


类 比 于 图 像 识别 中 的 CNN 模 型 ，TextCNN 为 文本 分 类 构建 了 一 个 最 基本 的 CNN 模 型 ， 大 致 分 为 输入 层 、 卷 积 层 、 池 化 层 和 


全 连接 +9oftmax 层 。 对 于 文本 分 类 任务 ， 输 入 层 使 用 了 词 同 量 座 入 作为 输入 表示 。 卷 积 层 处 理 的 是 一 个 词 目 阵 ， 假 设 词 拒 孟 有 


n 个 词 ， 每 个 词 用 200 维 表示 ， 那 么 这 个 词 息 阵 大 小 残 是 n*200。 卷 积 核 只 在 高 度 上 滑动 ， 在 宽度 上 固定 为 词 的 维度 (200 维 ) 。 
设 定 一 个 卷 积 窗口 (ERE) ， 滑 动 过 的 位 置 都 是 完整 的 单词 ， 这 样 输出 的 结果 在 池 化 层 得 到 的 是 一 个 calar。 而 在 实际 应 用 
中 ， 会 有 多 个 卷 积 窗口 ， 它 们 的 大 小 可 以 是 不 同 的 ， 比 如 大 小 为 3，4，5 等 不 同 的 宽度 作为 卷 积 窗口 大 小 。 而 其 中 同一 宽度 的 窗 
口 会 有 多 个 不 同 的 卷 积 核 ， 相 同窗 口 大 小 的 卷 积 出 来 的 多 个 不 同 的 9calar 组 合 在 一 起 ， 组 合成 了 同一 窗口 宽度 下 的 特征 向 量 。 最 
后 池 化 层 再 将 所 有 窗口 大 小 的 特征 向 量 也 组 合成 一 个 单一 的 一 维 向 量 ， 作 为 最 后 一 层 全 连接 +Softmax 的 输入 ， 如 图 5-13 所 示 。 


nxk representation of Convolutional layer with Max-over-time Fully connected layer 
sentence with static and multiple filter widths and pooling with dropout and 
non-static channels feature maps softmax output 


图 5-13 TextCNN 应 用 于 文本 分 类 任务 
1) 输入 层 


从 图 5-13 中 ， 可 以 看 出 输入 层 束 是 句子 中 词语 对 应 的 词 向 量 依 次 从 上 到 下 排列 的 ， 比 如 有 nn 个 词 ， 词 同 量 的 维度 是 K， 则 这 
个 矩阵 束 是 n*k 的 炬 阵 。 输 入 词 向 量 炬 阵 可 以 是 静 仿 的 ， 也 可 以 是 动态 的 ， 即 词 向 量 的 长 度 可 以 设置 是 固定 的 ， 也 可 以 设置 为 非 
固定 的 。 在 预测 过 程 中 出 现 未 登录 的 词 的 情况 时 ， 可 以 优先 考虑 零 填 宛 Zero Padding 的 万 法 进行 处 理 。 


2) Bite 


设 定 一 个 卷 积 窗口 (ERE) ， 窗 口 滑动 过 的 位 置 都 是 完整 的 单词 ，TextCNN 依 靠 移动 窗口 在 句子 上 的 滑动 ， 完 成 对 单 
词 的 卷 积 操 作 。 依 据 此 过 程 ， 一 段 话 经 过 卷 积 后 结果 是 一 个 向 量 ， 回 量 长 度 = 句 子 长 度 - 卷 积 窗口 +1。 卷 积 向 量 经 过 激活 函数 ， 
束 得 到 了 当前 层 输 出 的 特征 向 量 。 


3) 池 化 层 


池 化 层 使 用 的 是 Max-over-time Pooling 的 方法 ， 这 种 方法 通过 对 每 个 特征 向 量 里 的 内 容 提取 最 大 值 来 获得 。 最 大 池 化 法 
认为 : 特征 中 最 大 的 值 一 般 是 最 具有 代表 意义 或 者 是 最 重要 的 值 。 所 以 这 种 方法 可 以 将 多 个 不 同 特征 向 量 的 最 大 值 提 取出 来 ， 并 
且 合 成 为 一 个 一 维 向 量 作为 最 后 的 输入 特征 表示 。 


4) 全 连接 层 +Softmax 层 


池 化 之 后 的 一 维 向 量 通 过 全 连接 的 方式 接 入 一 个 Softmax 层 进行 分 类 ， 并 且 在 全 连接 部 分 使 用 Dropout， 这 种 方法 可 以 减少 
过 拟 合 。 


5.3 ”循环 网 络 RNN 


5.3.1 ”循环 网 络 RNN (LSTM，GRU) 理论 


传统 的 神经 网 络 模 型 从 输入 层 到 隐 谷 层 册 到 输出 层 ， 层 与 层 之 间 是 全 连接 的 ， 每 层 之 间 的 节点 是 无 连接 的 。 但 是 这 种 普通 的 
独 经 网 络 对 于 很 多 问题 却 无 能 为 力 。 例 如 ， 你 要 预测 一 个 句子 中 的 下 一 个 单词 是 什么 ， 一 般 需要 用 到 其 表面 的 单词 ， 因 为 一 个 名 
子 中 前 后 单词 并 不 是 独立 的 。 这 时 通常 运用 RNN 来 解决 难题 。RNNs 之 所 以 被 称 为 循环 神经 网 路 ， 即 一 个 序列 当前 的 输出 与 前 面 
的 输出 也 有 关 ， 是 因为 其 具体 的 表现 形式 为 网 络 会 对 前 面 的 信息 进行 记忆 并 应 用 于 当前 输出 的 计算 中 ， 即 隐藏 层 之 间 的 节点 不 再 
无 连接 而 是 有 连接 的 ， 并 且 隐 藏 层 的 输入 不 仅 包括 输 入 层 的 输出 还 包括 上 一 时 刻 隐藏 层 的 输出 。 


理论 上 ，RNNs 能 够 对 任何 长 度 的 序列 数据 进行 处 理 。 但 是 在 实践 中 ， 为 了 降低 复杂 性 往往 假设 当前 的 状态 只 与 表面 的 几 个 
状态 相关 ， 如 图 5-14 所 示 便 是 一 个 典型 的 RNNs。 
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图 5-14 RNN 网 络 结构 


RNNs 包 含 输入 单元 (Input Units) ， 输 入 集 标记 为 {xQg，Xx1，...，Xt，Xt-1，.…}， 而 输出 单元 (Output Units) 的 输出 集 则 
馈 标 记 为 {xX0，y1，…，yYt，yt-1，…}。RNNs 还 包含 隐 蕊 单元 (Hidden Units) ， 我 们 将 其 输出 集 标记 为 {s0，s1， 
…，St，St+1，…}， 这 些 隐藏 单元 完成 了 最 为 主要 的 工作 。 可 以 看 到 ， 在 图 5-15 中 ， 有 一 条 单 同 流动 的 信息 流 是 从 输入 单元 到 达 
隐藏 单 元 的 ， 与 此 同时 另 一 条 单 向 流动 的 信息 流 从 隐藏 单元 到 达 输 出 单元 。 在 某 些 情况 下 ，RNNs 会 打破 后 者 的 限制 ， 引 导 信息 
从 输出 单元 返回 隐藏 单元 ， 这 些 被 称 为 “Back Projections” ， 并 且 隐 藏 层 的 输入 还 包括 上 一 隐藏 层 的 状态 ， 即 隐藏 层 内 的 节点 
可 以 自 连 也 可 以 互 连 。 
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图 5-15 RNN 节 点 结构 


原生 的 RNN 会 遇 到 一 个 大 问题 ， 叫 作 The Vanishing Gradient Problem (梯度 消失 ) ， 也 束 是 后 面 时 间 的 节点 对 于 前 面 时 
间 节 点 的 感知 力 下 降 ， 那 为 什么 会 出 现 梯 度 消失 ? 我 们 以 一 个 简单 的 神经 网 络 来 说 明 ， 如 图 5-16 所 示 。 


图 5-16 ”RNN 记 忆 单 元 的 权重 和 偏 置 


这 里 w1，Ww2，…，Wwn 是 权重 ，b1，b2，…，bn 是 含 置 ，C 代 表 代价 加 数 。 如 果 针 对 这 个 网 络 把 整个 梯度 计算 公 陈 写 下 来 。 


AC / ' ' / AC 
m = 0 (zi) w0 (z, ) W30 (z, ) Wyo (2, ) 


对 于 参数 的 表达 式 主 要 是 一 系列 的 wjo”(zj) 乘积 ， 我 们 对 Sigmoid 函 数 进行 求 导 ， 如 图 5-17 所 示 。 
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图 5-17 Sigmoid& Hit 47 RF 


该 导数 在 0 (0) =0.25 达 到 最 高 ， 我 们 一 般 会 以 标准 方法 初始 化 网 络 中 的 权重 ， 因 此 所 有 的 权重 会 满足 wja (zj) <1/4, = 
把 所 有 因子 进行 乘积 的 时 候 ， 最 终 的 结果 会 呈现 指数 的 下 降 ， 深 度 学 习 对 神经 网 络 的 层 数 有 越 高 的 要 求 ， 则 项 越 多 乘积 下 降 的 越 
快 ， 这 束 是 梯度 消失 问题 产生 的 原因 。 


LSTM 通 过 刻意 的 设计 来 避免 长 期 依赖 问题 。 而 长 期 的 信息 在 实 跤 中 是 LSTM 的 默认 行为 ， 所 以 所 有 的 RNN 都 具有 一 种 重复 
独 经 网 络 模块 的 链 陈 的 形式 。 在 标准 的 RNN 中 ， 这 个 重复 的 模块 只 有 一 个 非 囊 简单 的 结构 。 例 如 一 个 tanh 层 ，LSTM 中 最 重要 
的 核心 思想 束 是 所 谓 的 是 单元 状态 (Cell State) ， 即 图 ?-18 中 LSTM 曲 元 从 元 边 Memory Cell Input 贯 穿 到 右边 的 Memory 
Cell Output 水 平 线 ， 它 像 是 传送 市 一 样 ， 将 信息 从 上 一 个 单元 传递 到 下 一 个 单元 ， 和 其 他 部 分 只 有 很 少 的 线性 的 相互 作用 。 
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图 5-18 LSTM 网 络 结构 


LSTM 通 过 “ 门 ” (Gate) 来 控制 丢弃 或 者 增加 信息 ， 从 而 实现 遗志 或 记忆 的 功能 。“| 门 ”是 一 种 使 信息 选择 性 通过 的 结 
构 ， 由 一 个 Sigmoid 函 数 和 一 个 点 乘 操作 组 成 。sigmoid 了 为 数 的 输出 值 在 [0，1] 区 | 间 ，0 代 表 完 全 丢弃 ，1 代 表 完 全 通过 。 一 个 
LSTM 单 元 有 3 个 这 样 的 门 ， 分 别 是 遗志 | ] (Forget Gate) 、 输 入 门 (Input Gate) 、 输 出 门 (Output Gate) 。 


下 面 将 介绍 记忆 细胞 在 每 个 时 序 是 怎么 变化 的 。 
Xt 是 在 时 | 间 txj 记 忆 单 元 的 输入 ， 其 中 Wi，Wf，Wce，Wo，Ui，Uf，Uc，Uof0Vo 是 权重 ，bi，bf，bce 和 bo 是 偏 置 项 。 


首先 计算 输入 门 e 的 值 it， 以 及 代表 记忆 单元 状态 在 时 间 tf 候 选 值 C, . 
i =0( Wx +Uh_, +0.) 


C = tanh ( WX, + Uh, + b.) 


init St, BERRE mE EAH EAN, 
fi=o (Wex,+U sh, tbe) 


有 了 输入 门 的 激活 函数 ti， 以 及 忘记 门 的 激活 函数 ft 以 及 代表 状态 候选 值 ， 就 可 以 计算 记忆 单元 在 时 间 t 的 最 新 状态 ; 


C, =l, X C, +Í, X Cii 


通过 记忆 单元 的 最 新 状态 ， 计 算出 输出 门 的 值 以 及 最 终 输出 : 


O70 (Woxt+Uoht 1 二 VC ) 


hi=oixtanh (C,) 


5.3 ”循环 网 络 RNN 


5.3.1 ”循环 网 络 RNN (LSTM, GRU) 理论 


传统 的 神经 网 络 模 型 从 输入 层 到 隐 谷 层 册 到 输出 层 ， 层 与 层 之 间 是 全 连接 的 ， 每 层 之 间 的 节点 是 无 连接 的 。 但 是 这 种 普通 的 
独 经 网 络 对 于 很 多 问题 却 无 能 为 力 。 例 如 ， 你 要 预测 一 个 句子 中 的 下 一 个 单词 是 什么 ， 一 般 需要 用 到 其 表面 的 单词 ， 因 为 一 个 名 
子 中 前 后 单词 并 不 是 独立 的 。 这 时 通常 运用 RNN 来 解决 难题 。RNNs 之 所 以 被 称 为 循环 神经 网 路 ， 即 一 个 序列 当前 的 输出 与 前 面 
的 输出 也 有 关 ， 是 因为 其 具体 的 表现 形式 为 网 络 会 对 前 面 的 信息 进行 记忆 并 应 用 于 当前 输出 的 计算 中 ， 即 隐藏 层 之 间 的 节点 不 再 
无 连接 而 是 有 连接 的 ， 并 且 隐 藏 层 的 输入 不 仅 包括 输 入 层 的 输出 还 包括 上 一 时 刻 隐藏 层 的 输出 。 


理论 上 ，RNNs 能 够 对 任何 长 度 的 序列 数据 进行 处 理 。 但 是 在 实践 中 ， 为 了 降低 复杂 性 往往 假设 当前 的 状态 只 与 表面 的 几 个 
状态 相关 ， 如 图 5-14 所 示 便 是 一 个 典型 的 RNNs。 
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图 5-14 RNN 网 络 结构 


RNNs 包 含 输入 单元 (Input Units) ， 输 入 集 标记 为 {xQg，Xx1，...，Xt，Xt-1，.…}， 而 输出 单元 (Output Units) 的 输出 集 则 
馈 标 记 为 {xX0，y1，…，yYt，yt-1，…}。RNNs 还 包含 隐 蕊 单元 (Hidden Units) ， 我 们 将 其 输出 集 标记 为 {s0，s1， 
…，St，St+1，…}， 这 些 隐藏 单元 完成 了 最 为 主要 的 工作 。 可 以 看 到 ， 在 图 5-15 中 ， 有 一 条 单 同 流动 的 信息 流 是 从 输入 单元 到 达 
隐藏 单元 的 ， 与 此 同时 另 一 条 单身 流动 的 信息 流 从 隐藏 单元 到 达 输 出 单元 。 在 某 些 情况 下 ，RNNS 会 打 夏 后 者 的 限制 ， 引 导 信 息 
从 输出 单元 返回 隐藏 单元 ， 这 些 被 称 为 “Back Projections” ， 并 且 隐 藏 层 的 输入 还 包括 上 一 隐藏 层 的 状态 ， 即 隐藏 层 内 的 节点 
可 以 自 连 也 可 以 互 连 。 


y 
W 
OF 
Unfold 
U 
X Xi] Xf AXt+] 


图 5-15 RNN 节 点 结构 


原生 的 RNN 会 遇 到 一 个 大 问题 ， 叫 作 The Vanishing Gradient Problem (梯度 消失 ) ， 也 束 是 后 面 时 间 的 节点 对 于 前 面 时 
间 节 点 的 感知 力 下 降 ， 那 为 什么 会 出 现 梯 度 消失 ? 我 们 以 一 个 简单 的 神经 网 络 来 说 明 ， 如 图 5-16 所 示 。 


图 5-16 ”RNN 记 忆 单 元 的 权重 和 偏 置 


这 里 w1，Ww2，…，Wwn 是 权重 ，b1，b2，…，bn 是 含 置 ，C 代 表 代价 加 数 。 如 果 针 对 这 个 网 络 把 整个 梯度 计算 公 陈 写 下 来 。 


AC / ' ' / AC 
m = 0 (zi) w0 (z, ) W30 (z, ) Wyo (2, ) 


对 于 参数 的 表达 式 主 要 是 一 系列 的 wjo”(zj) 乘积 ， 我 们 对 Sigmoid 函 数 进行 求 导 ， 如 图 5-17 所 示 。 
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图 5-17 Sigmoid& Hit 47 RF 


该 导数 在 0 (0) =0.25 达 到 最 高 ， 我 们 一 般 会 以 标准 方法 初始 化 网 络 中 的 权重 ， 因 此 所 有 的 权重 会 满足 wja (zj) <1/4, = 
把 所 有 因子 进行 乘积 的 时 候 ， 最 终 的 结果 会 呈现 指数 的 下 降 ， 深 度 学 习 对 神经 网 络 的 层 数 有 越 高 的 要 求 ， 则 项 越 多 乘积 下 降 的 越 
快 ， 这 束 是 梯度 消失 问题 产生 的 原因 。 


LSTM 通 过 刻意 的 设计 来 避免 长 期 依赖 问题 。 而 长 期 的 信息 在 实 跤 中 是 LSTM 的 默认 行为 ， 所 以 所 有 的 RNN 都 具有 一 种 重复 
独 经 网 络 模块 的 链 陈 的 形式 。 在 标准 的 RNN 中 ， 这 个 重复 的 模块 只 有 一 个 非 囊 简单 的 结构 。 例 如 一 个 tanh 层 ，LSTM 中 最 重要 
的 核心 思想 束 是 所 谓 的 是 单元 状态 (Cell State) ， 即 图 ?-18 中 LSTM 曲 元 从 元 边 Memory Cell Input 贯 穿 到 右边 的 Memory 
Cell Output 水 平 线 ， 它 像 是 传送 市 一 样 ， 将 信息 从 上 一 个 单元 传递 到 下 一 个 单元 ， 和 其 他 部 分 只 有 很 少 的 线性 的 相互 作用 。 
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图 5-18 LSTM 网 络 结构 


LSTM 通 过 “ 门 ” (Gate) 来 控制 丢弃 或 者 增加 信息 ， 从 而 实现 遗志 或 记忆 的 功能 。“| 门 ”是 一 种 使 信息 选择 性 通过 的 结 
构 ， 由 一 个 Sigmoid 函 数 和 一 个 点 乘 操作 组 成 。sigmoid 了 为 数 的 输出 值 在 [0，1] 区 | 间 ，0 代 表 完 全 丢弃 ，1 代 表 完 全 通过 。 一 个 
LSTM 单 元 有 3 个 这 样 的 门 ， 分 别 是 遗志 | ] (Forget Gate) 、 输 入 门 (Input Gate) 、 输 出 门 (Output Gate) 。 


下 面 将 介绍 记忆 细胞 在 每 个 时 序 是 怎么 变化 的 。 
Xt 是 在 时 | 间 txj 记 忆 单 元 的 输入 ， 其 中 Wi，Wf，Wce，Wo，Ui，Uf，Uc，Uof0Vo 是 权重 ，bi，bf，bce 和 bo 是 偏 置 项 。 


首先 计算 输入 门 e 的 值 it， 以 及 代表 记忆 单元 状态 在 时 间 tf 候 选 值 C, . 
i =0( Wx +Uh_, +0.) 


C = tanh ( WX, + Uh, + b.) 


init St, BERRE mE EAH EAN, 
fi=o (Wex,+U sh, tbe) 


有 了 输入 门 的 激活 函数 ti， 以 及 忘记 门 的 激活 函数 ft 以 及 代表 状态 候选 值 ， 就 可 以 计算 记忆 单元 在 时 间 t 的 最 新 状态 ; 


C, =l, X C, +Í, X Cii 


通过 记忆 单元 的 最 新 状态 ， 计 算出 输出 门 的 值 以 及 最 终 输出 : 


O70 (Woxt+Uoht 1 二 VC ) 


hi=oixtanh (C,) 


5.3.2 ”利用 RNN 进 行情 感 分 析 


情感 分 析 是 最 冲 见 的 目 然 语 言 的 应 用 之 一 ， 也 是 对 话 系统 中 一 个 重要 的 模块 。 在 垂直 领域 客服 机 器 人 来 讽 ， 对 客户 情绪 的 实 
时 和 精准 的 把 握 至 关 重 要 ， 如 果 客 尸 的 惯 钨 情绪 没有 得 到 及 时 地 安抚 将 会 对 用 尸 的 体验 造成 很 大 影响 。 传 统 处 理 情感 分 析 的 方法 
主要 是 通过 情感 关键 词 的 收集 和 统计 ， 以 及 SVM 等 算法 ， 在 5.3.1 市 我 们 主要 介绍 利用 RNN 来 进行 情感 分 析 预 处 理 。 


针对 问题 语料库 ， 我 们 首先 进行 分 词 、 统 计 词 频 、 并 且 过 滤 抒 低频 词 ， 然 后 建立 以 Wordid 作 为 Embedding Layer 的 输入 ， 
以 产生 低 维度 的 词 向 量 ， 如 图 5-19 所 示 。 


问题 语 料 


Attention | | 注意 力 机 人 制 
分 类 


图 5-19 RNN 文 本 分 类 流程 图 
1) Embedding 
由 预 处 理 结果 ， 我 们 将 单词 个 数 限制 在 2000 个 ，RNN 网 络 输入 的 序列 长 度 设 定 为 40， 对 于 测试 集中 未 达到 该 长 度 的 句子 进 
行 填充 ， 所 以 还 需要 一 个 伪 单 词 PAD， 超 出 2000 个 单词 学 围 之 外 的 单词 设 为 伪 单 词 UNK (Unknown) 。 
2) 模型 训练 


在 训练 深度 学 习 模 型 过 程 中 ， 当 训练 集 和 测试 集成 功率 牵 别 较 大 的 时 候 束 会 出 现 过 拟 合 问题 ， 束 是 指 学 习 进 行 的 过 于 彻底 ， 
把 样本 数据 的 所 有 特征 几乎 都 习 得 了 ， 于 是 机 器 学 到 了 过 多 的 局 部 特征 ， 过 多 噪声 所 市 来 的 假 特 征 ， 造 成 模型 的 “ 泛 化 性 ”和 识 


别 正 确 率 几乎 达到 谷 点 。 在 我 们 的 模型 优化 过 程 中 ， 我 们 主要 利用 了 Early Stop、Dropout 以 及 正则 化 方法 来 防止 过 拟 合 问题 ， 
如 图 5-20 所 示 。 


Underfitting Just right! overfitting 


图 5-20 深度 学 习 模 型 欠 拟 合 、 正 好 、 过 拟 合 
a.Early Stop 
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(Gradient Descent) 学 习 算 法 。Early Stopping#e—MBWATC KAMA T ARI SAI A, BYERS) ARN 
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图 5-21 Loss VS Epochs YA KR Early Stop 
b.Dropout 
Dropout 是 指 在 模型 训练 时 随机 让 网 络 某 些 隐 含 层 节点 的 权重 不 工作 ， 不 工作 的 那些 节点 可 以 暂时 认为 不 是 网 络 结构 的 一 部 


分 ， 如 图 5-22 所 示 。 
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图 5-22 ”Dropout 示 意图 
c.L1, L2Regularization 


LITER CAOLZTEN Ca aa FERRARAN. LIES BAW PES oR, RO 
为 ||IWI|，L2 正 则 化 是 措 权 值 向 量 W 中 各 个 元 素 的 平方 和 然后 再 求 平方 根 


mink 


wi 


3) 模型 评 信 


通过 对 训练 集 和 测试 集 进 行 准确 率 相 对 和 迭代 次 数 的 Epoch 评 估 ， 当 测试 集 准 确 率 稳定 并 达到 标准 时 ， 认 为 模型 可 用 如 图 5- 
23 所 不 。 


Acc & Epoch 


一 一 训练 集 
一 一 测试 集 


0.75 


Epoch 


图 5-23 ”模型 评估 示意 图 


5.3.3 Sequence-to-Sequence with Attention Model 


如 果 输 入 和 输出 都 是 序列 形式 的 ， 那 我 们 可 以 利用 两 组 RNN 来 分 别 表示 输入 和 输出 。 输 入 层 的 RNN 利 用 编码 器 
(Encoder) 把 输入 的 目标 句 进行 编码 ， 产 生 Context Vector， 输 出 层 的 RNN 再 利用 解码 器 (Decoder) ， 根 据 Context 
Vector 输 出 到 对 应 的 输出 的 目标 句子 。 我 们 将 这 种 结构 的 RNN/LSTM 模 型 用 来 训练 得 到 输入 和 输出 元 泰 的 对 应 天 系 ， 并 称 其 为 
Sequence-to-Sequence Model， 如 图 5-24 所 示 。 


Decoder 


Encoder 


图 5-24 Sequence-to-Sequence Model & A 
1) 编码 阶段 -Encoder: 


编码 器 是 由 RNN 把 一 个 不 定 长 的 输入 序列 x= (x1，.…，xT) 变换 成 一 个 定 长 的 参考 向 量 c。 在 隐藏 层 中 ， 下 一 个 时 刻 的 隐藏 
状态 可 以 被 表示 为 ht=f (h (1) ，xt) 。 这 里 何以 是 一 个 非 线性 的 函数 ， 最 简单 地 甚至 可 以 是 一 个 逻辑 回归 的 Sigmoid 函 数 ， 


复杂 的 可 以 是 一 个 LSTM。 


假设 输入 序列 是 一 句 话 x= (Xx1，.…，XT) ，Xx1，…，XT 表 示 T 个 有 序 的 单词 ， 每 个 词 的 下 一 个 时 刻 的 隐藏 状态 都 可 以 表示 为 


ht=f (h (1) ，xt) ， 当 模型 读 完 整 句 话 后 ，RNN 的 隐藏 层 的 各 个 隐藏 状态 总 结 Context Vector c: 


c=q (hi ， a) hy) 


编码 器 的 传递 既 可 以 是 正 向 的 ， 也 可 以 是 反 向 的 。 正 向 传递 隐 含 层 变 量 有 : 


t- 9 i ) 
有 反 向 传递 隐 售 层 变 量 有 : 


t+i? NX,) 


解码 器 是 由 另外 一 个 RNN 模 型 经 过 训练 后 产生 的 。 它 会 根据 Context Vector 的 信息 和 之 前 生成 的 输出 序列 y1，y2， 


2) 解码 阶段 -Decoder: 


wer YE 
1， 以 及 给 定 的 隐藏 层 的 状态 ht 用 来 预测 下 一 个 的 输出 yt。 总 结 一 下 得 到 ， 在 解码 器 t 时 刻 ， 隐 藏 层 的 状态 可 以 由 t-1 时 刻 的 隐藏 层 
状态 ， 输 出 y-1 和 Context Vector 信息 c 所 决定 : 


h=f (hii, Y1; © 

类 似 的 ， 下 一 个 时 刻 的 输出 yt 的 条 件 概率 可 以 表示 为 : 
P (yeyer yea “> Yrs ©) =g (hoes yeas ©) 

其 中 ，f 和 9 为 给 定 的 激活 函数 ( 非 线性 的 神经 网 络 ) 。 


然后 最 大 化 输出 序列 的 联合 概率 得 到 : 


T 
P(y Meas tts y) = [PO Vas Nas s y, ©) 


t=] 
联合 概率 的 损失 函数 可 以 表示 为 : 
-logP (Vs ves 3 y1) 


3) Attention 注意 力 模型 : 


从 Sequence-to-Sequence 的 整体 来 看 ， 编 码 部 分 Encoder 和 解码 部 分 Decoder 的 唯一 联系 束 是 一 个 固定 了 长 度 的 Context 
Vector c。 因 为 先 输入 的 是 序列 型 的 数据 ， 后 输入 的 数据 肯定 比 先 输入 的 数据 更 加 容易 被 忽略 。 而 且 一 个 语义 向 量 并 不 能 很 好 的 


解决 句子 中 词 的 语义 的 对 应 问题 。 而 Attention 模 型 的 提出 融 是 用 来 解决 上 述 提出 的 问题 ， 它 可 以 用 特殊 的 方法 ， 使 得 输入 和 输 
出 的 词语 直接 产生 语义 对 应 关系 ， 并 且 为 不 同 的 对 应 关系 赋予 不 一 样 的 权重 。 这 样 残 能 很 好 地 提升 文本 的 生成 效果 ， 如 图 ?-25 


所 示 。 


Encoder 


图 5-25 Sequence-to-Sequence Attention Model 


在 图 5-25 中 ，Attention 的 方法 就 是 创造 更 多 的 Context Vector， 让 每 个 c 自 动 选 取 和 输出 最 匹配 的 词 证 ， 从 而 代替 只 从 结 
尾 的 隐藏 层 状 态 得 到 Context Vector。 假 设 Context Vector 为 c1c2...cn， 每 个 cj 都 自动 选择 搭配 与 输出 y 最 适合 的 信息 。 


如 图 5-26 所 示 ， 假 设 注意 力 权 重 aj 为 反应 编码 部 分 j 时 刻 隐 合 层 变 量 hj 和 解码 部 分 第 i 时 刻 信息 之 间 的 相关 系数 。 那 么 解码 部 
分 第 i 时 刻 的 Context Vector cj 可 以 表示 为 对 应 变量 hj 和 注意 力 权 重 aij 积 的 罕 加 和 。 


ho * (CD + hs * @) + ha * @) 


© o> 


hi * @) + ho + hz ®© @-@ C> Love 


hı * (CD + hy * @) + hy :OO "|*@ 


图 5-26 ”关注 度 权重 分 配 示 意图 
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上 述 过 程 可 以 解释 为 ， 编 码 器 在 J 时 刻 的 隐 合 变量 为 hj， 则 解码 器 在 i 时 刻 的 背景 向 量 为 : 


il 


C 


解码 器 在 | 时刻 的 隐 合 层 变 量 : 
si=g (71，ci，si11) 


这 时 我 们 只 需 得 到 ai 的 求解 方法 ， 融 可 以 完全 解 勾 注 意 力 机 制 了 。 变 量 ei 为 联系 编码 隐藏 层 hj 和 解码 器 隐藏 层 si-1 的 激活 了 
数 6 的 计算 结果 : 


eij=6 (s.4, h;) 


Sequence-to-SequenceAiRZHINLPIV AOR, MIRRE, NEMAINA mEn, AAE, 
目 动 生成 图 片 文字 摘 述 以 及 各 种 文风 的 写作 〈 诗 歌 、 对 联 、 模 仿 沙 士 比 亚 文 风 的 写作 等 ) 。 


5.4 Transformer 


5.4.1 ResNet (Residual Network) 残 才 网 络 模型 

通过 图 5-27 所 示 的 残 差 网 络 示意 图 可 以 看 出 ，ResNet 用 捷径 连接 的 方式 ， 让 输入 x 直接 传送 到 输出 端 作为 初始 化 的 值 。 输 出 
的 值 为 : 

H (x) =F (x) +x 

那么 残 差 模型 函数 可 以 近似 为 

Fy 


当 输出 和 输入 的 值 都 是 x 时 ， 残 差 网 络 的 训练 目标 即使 让 结果 无 限 通 近 于 0。 面 对 多 层 网 络 ， 随 着 深度 的 增加 ， 整 个 训练 的 
错误 率 可 能 会 随 着 梯度 的 消失 而 无 法 持续 下 降 。 而 ResNet 则 利用 跳跃 的 结构 方式 ， 避 免 了 这 种 情况 的 友 生 ， 为 学 习 深 度 模型 提 
供 了 很 好 的 万 法 。 


Weight Layer 


F(x) RELU Identity 


Weight Layer x 


H(x)=F(x)+x | 
RELU 捷径 连接 


图 5-27 ResNet 残 差 网 络 示 意图 


5.4 Transformer 


5.4.1 ResNet (Residual Network) 残 才 网 络 模型 

通过 图 5-27 所 示 的 残 差 网 络 示意 图 可 以 看 出 ，ResNet 用 捷径 连接 的 方式 ， 让 输入 x 直接 传送 到 输出 端 作为 初始 化 的 值 。 输 出 
的 值 为 : 

H (x) =F (x) +x 

ABZ eRe ABA] LATA 

F (x) : =H (x) =x 


当 输 出 和 输入 的 值 都 是 x 时 ， 残 差 网 络 的 训练 目标 即使 让 结果 无 限 通 近 于 0。 面 对 多 层 网 络 ， 随 着 深 度 的 增加 ， 整 个 训练 的 
首 误 率 可 能 会 随 着 梯度 的 消失 而 无 法 持续 下 降 。 击 ResNet 则 利用 跳跃 的 结构 方式 ， 避 免 了 这 种 情况 的 友 生 ， 为 学 习 深 度 模型 提 
供 了 很 好 的 万 法 。 
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F(x) ,RELU Identity 
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Welght Layer 


H(x)=F(x)+x © | 
1 RELU 捷径 连接 


图 5-27 ResNet 残 差 网 络 示 意图 


5.4.2 Attention is all you need (Transformer) 


1) Transformer 的 模型 架构 
Transformer 模 型 示意 图 如 图 5-28 所 示 。 
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图 5-28 Transformer # 7 eA 
绝 大 多 数 的 竞争 性 神经 网 络 序列 转换 模型 ， 都 具备 配对 Encoder-Decoder 结 构 。 在 Transformer 模 型 中 ，Encoder 把 字符 串 
表示 的 序列 (x1，.…，Xn) 转换 成 连续 消 数 的 序列 z= (z1，.…，Zzn) ， 在 解码 阶段 ， 每 个 时 间 点 都 会 产生 一 个 单独 的 字符 ， 然 后 
连续 输出 序列 (y1，...，yn) ， 这 中 间 的 每 一 步 转换 都 是 自 回 归 的 方式 。 
Encoder 是 由 6 个 相同 的 Layer 层 著 构 成 的 ， 而 每 个 Layer 都 由 两 个 Sub-Layer 组 成 ， 一 个 是 多 头 的 自 注意 力 机 制 层 ， 另 外 一 


个 是 全 连接 的 前 馈 神 经 网 络 层 。 在 每 个 Sub-Layer 上 都 加 上 了 一 个 残 差 连接 Residual Connection 和 标准 化 层 。 然 后 输出 表示 
为 : 


sublayer_output=LayerNorm (x+SubLayere (x) ) 


Decoder 也 是 由 6 个 相同 的 层 寺 的 Layer 组 成 ， 每 层 也 包含 目 注 意 力 层 和 前 馈 神 经 网 络 层 ， 除 此 之 外 ， 在 两 层 之 间 还 包 合 了 
一 个 多 头 的 注意 力 。 


每 一 个 Encoder 有 2 个 部 分 : Self-Attention+Feed Forward Neural Network, 
每 一 个 Decoder 有 3 个 部 分 : Self-Attention+Encoder-Decoder Attention+Feed Forward, 
2) Encoder 编 码 部 分 


从 编码 器 输入 的 句子 首先 会 经 过 一 个 自 注意 力 (Self-Attention) 层 ， 这 层 将 帮助 编码 器 在 对 每 个 单词 编码 时 关注 输入 句子 
的 其 他 单词 。 比 如 下 面 的 一 句 话 : “The animal didn’ t cross the street because it was too tired.” 


当 算 法 注意 到 “it” 这 个 词 的 时 候 ， 自 注意 力 会 在 “animal” 这 个 词 上 分 配 一 部 分 注意 力 ， 这 样 “animal” 也 会 变 
成 “it” 这 个 词 的 编码 的 一 部 分 ， 如 图 5-29 所 示 。 
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图 5-29 ” 自 注 意 力 机 制 示意 图 


当 一 句 话 以 词 向 量 的 方式 作为 输入 后 ， 每 个 词 向 量 会 生产 出 3 个 向 量 : 碍 询问 量 、 键 向 量 和 值 向 量 。 它 们 是 通过 词 向 量 和 与 
3 个 权重 息 阵 相 乘 得 到 的 。 如 图 ?-30 所 示 。 


图 5-30 ”查询 向 量 、 键 向 量 和 值 向 量 生 成 示意 图 


如 图 5-31 所 示 ， 输 入 两 个 单词 “thinking”，“machines”。 在 计算 第 一 个 词 “thinking” 的 注意 力 向 量 时 ， 句 子 中 的 每 
个 词 都 对 “thinking” 打 分 ， 这 样 企 为 “thinking” 编 码 时 才 知 道 哪 些 词 对 它 更 加 重要 。 当 序列 输入 时 ，Encoder 开 始 工作 ， 最 
后 在 其 顶层 的 Encoder 输 出 矢量 组 成 的 列表 ， 然 后 我 们 将 其 转化 为 一 组 Attention 的 集合 (K，V) 。 (K, V) 将 市 入 每 个 
Decoder 的 “Encoder-Decoder Attention” 层 中 去 计算 (这 样 有 助 于 Decoder 捕 获 输 入 序列 的 位 置信 息 ) 。 


输入 Thinking Machines 
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图 5-31 查询 向 量 、 键 向 量 和 值 向 量 求 Z 和 矩阵 示意 图 


多 头 注意 力 机 制 如 图 5-32 所 示 。 


在 图 ?5-31 中 ， 第 一 个 得 分 是 自己 的 目 相 天 分 数 ， 用 q1 和 Kk1 的 点 乘积 结果 表示 。 第 二 个 分 数 是 “thinking” 对 
于 “machines” 的 分 数 ， 用 q1 和 k2 的 点 乘积 结果 表示 。 并 把 打分 除 以 键 向 量 维度 的 平方 根 8。 接 着 使 用 Softmax 使 得 所 有 的 分 
数 实现 归 一 化 。 然 后 每 个 值 向 量 乘 以 Softmax 分 数 ， 最 后 对 加 权 值 向 量 求 和 。 而 权重 是 该 词 的 键 向 量 与 被 编码 词 查询 向 量 的 点 积 
并 通过 Softmax 得 到 。Attention 的 输出 矩阵 可 以 按照 下 述 公 式 计 算 : 


Sof OK 
Softmax 
/d : 


因为 应 用 多 头 的 注意 力 机 制 ， 每 个 头 都 会 有 目 己 的 查询 疝 量 、 键 向 量 、 值 癌 量 。 通 过 计算 会 得 到 8 个 不 同 的 2 起 孟 ， 然 后 把 
所 有 Z 息 阵 拼 接 成 一 个 矩阵 ， 乘 以 同一 个 附加 的 权重 矩阵 WO 得 到 新 的 Z 息 阵 。 


MultiHead( Q, K, V) =Concat(head,, :…, head, ) 


Attention(Q, K, V) = V 


where: head. = Attention( OWS , KW. , VW, ) 


1) This is our 2) We embed 3) Split into 8 heads. 4) Calculate attention 5) Concatenate the resulting Z matrices, 
input sentence* each word* We multiply Xor using the resulting then multiply with weight matrix W° to 
R with weight matrices Q/K/V matrices produce the output of the layer 
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* In all encoders other than #0, 人 CO 7 
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图 5-32 多头 自 注意 力 机 制 示 意图 
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输入 的 句子 可 以 看 作 是 有 序 的 词 向 量 的 组 合 ， 所 以 词 在 输入 句子 中 的 位 置信 息 也 很 重要 。 最 简单 的 方法 是 ， 只 要 我 们 加 入 位 
置 的 向 量 编 码 ， 和 每 个 词 向 量 相 结 合 ， 那 么 所 输入 的 词 向 量 束 会 涡 有 序列 信息 。 位 置 编码 万 冯 有 很 多 ， 作 者 给 出 的 是 利用 正 选 曲 
线 的 编码 版 本 。 


假设 pos 代 表 位 置信 息 ，i 代 表 维 度 ，dmodel 代 表 输 入 输出 模型 的 维度 。 


PE a = sin(pos/10 000°" ) 


(pos,2r 


PE 


这 样 ， 每 个 维度 的 位 置 编码 都 可 以 对 应 一 条 正弦 曲线 。 编 码 方程 可 以 让 模型 更 容易 学 习 到 不 同位 置 的 天 系 信息 。 


—C | | 2i/d odel — 
(pos,2i¢1) | COS ( pos/10 000 m ) 


3) Decode 解 码 部 分 


输入 序列 在 经 过 编码 部 分 后 ， 顶 端 Encoder 的 输出 编码 向 量 转换 成 一 组 包含 键 向 量 K 和 值 向 量 V 的 Attention 和 集合 (K，V) 。 
(K, V) 向 量 被 每 个 解码 器 都 用 于 自身 的 “编码 -解码 注意 力 层 ”， 这 可 以 帮助 Decoder 关 注 输 入 序列 更 加 合适 的 位 置信 息 。 


解码 阶段 ， 解 码 的 每 个 步骤 都 会 输出 对 应 输出 序列 的 一 个 词语 ， 然 后 反复 重复 这 个 过 程 ， 直 到 最 后 的 句子 终止 符 ， 这 样 
Transformer 的 Decoder 就 完成 了 解码 输出 。 编 码 的 输出 序列 每 一 步 都 会 被 输送 到 解码 部 分 最 底 端 的 Decoder， 然 后 和 编码 部 分 
一 样 向 上 层 传送 。 和 编码 输入 一 样 ， 我 们 也 要 把 位 置信 息 加 入 到 编码 向 量 ， 这 样 解码 器 Decoder 的 输入 束 会 更 加 确定 对 应 的 每 个 
位 置 上 的 词语 。 


在 解码 过 程 中 ， 目 注意 力 层 的 操作 和 编码 部 分 的 操作 有 些许 的 不 同 。 在 解码 阶段 ， 自 注意 力 层 只 准许 处 理 输出 序列 更 加 靠 前 
的 那些 位 置 。 在 执行 9oftmax 步 骤 前 ， 目 注意 力 计 算 会 把 后 面 的 位 置 隐藏 (把 它们 设 为 -Inf) 。 这 样 “ 编 码 -解码 注意 力 层 ” 的 
工作 方式 束 像 多 头 的 目 注 意 力 层 一 样 。 它 的 不 同 之 处 是 通过 下 面 的 层 创造 查询 算 阵 ， 并 从 Encoder 的 输出 取得 K，V 算 阵 。 


4) Softmax 与 线性 变换 


解码 部 分 最 后 会 输出 一 个 实数 向 量 ， 它 需要 连接 一 个 简单 的 全 连接 神经 网 络 ， 把 向 量 投射 到 对 数 logits 同 量 中 ， 向 量 中 的 每 
个 单元 格 对 应 一 个 词语 的 分 数 。 然 后 的 Softmax 层 会 把 这 些 分 数 变 成 概率 。 其 中 概率 最 高 的 单元 锐 选 中 ， 它 对 应 的 单词 作为 这 个 
时 刻 的 输出 ， 如 图 5-35 所 示 。 
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图 5-35 ”Decodet 的 输出 到 Softmax 的 输出 


练 模型 


5.2 Ful 


5.5.1 Embeddings from Language Models (ELMo) 


Bia SWAB SS Ree ABER RE Paste, LOR RSCNNSHAT ARR, AREAS 
UT SURAT MARTHA mano. FAAEA FRR ER, Sass SARs PVA, Ait 
移 到 目 然 语 言 处 理 中 。 图 像 识 别 的 预 训练 指 的 是 ， 把 在 A 训 练 集合 中 已 经 训练 好 的 用 于 图 像 识 别 的 模型 ， 添 加 到 其 他 图 像 识 别 的 
模型 中 。 也 可 以 说 把 一 个 任务 中 的 训练 模型 用 于 其 他 的 任务 。ELMo 的 思想 便 是 来 源 于 此 ， 作 者 利用 预 训练 得 到 Context 
Vectors (上 下 文 的 向 量 ) ， 然 后 添加 到 新 模型 的 训练 中 ， 作 为 输入 的 一 部 分 ， 以 这 种 方式 来 提高 模型 的 整体 性 能 。 


通过 学 习 得 到 高 质量 的 预 训练 词 癌 量 是 比较 有 挑战 的 事情 。 首 先 ， 要 能 够 学 习 到 复杂 的 词汇 用 法 ， 比 如 : 语法 和 语义 。 且 能 
够 根据 不 同 的 上 下 文 语 境 得 到 词汇 的 多 义 性 。 


与 大 多 数 广泛 使 用 的 词 验 入 不 同 ，EImo 的 词 表 示 的 是 整个 输入 句子 的 负 数 。 它 利用 耦合 语言 异型 对 大 规模 的 文本 语 料 进行 
训练 得 到 BiLSTM 网 络 ， 并 使 用 BiLSTM 来 生成 词 向 量 。ELMo 表 示 方 法 是 更 加 深层 的 神经 网 络 消 数 结构 ， 以 往 根据 上 下 文 训练 所 
得 到 的 词 向 量 可 以 被 看 成 是 厅 合 语言 模型 内 部 所 有 层 的 尔 数 。 也 可 以 理解 为 ELMo 实 际 上 是 学 习 了 每 个 词 在 神经 网 络 层 的 一 个 线 
性 组 合 。LSTM 高 层 状 态 可 以 更 好 地 理解 上 下 文中 单词 的 解释 ， 在 有 监督 的 消除 上 义 方面 表现 得 更 好 ， 底 层 状 态 在 语法 建 模 方面 
表现 更 加 出 色 ， 可 以 用 来 做 词性 标注 。 在 耦合 语言 模型 通过 大 规模 语 料 预 训练 的 基础 上 ， 很 容易 航 纳 入 现 有 的 神经 网 络 NLP 体系 


下 ， 进 行 半 监 督 的 学 习 。 


当选 择 利 用 双向 语言 模型 来 进行 有 监督 的 目 然 语言 处 理 任 务 时 ， 通 过 计算 得 到 “上 下 文 无 关 ” (Context-Independent) 


的 词 向 量 表示 x%"， 然 后 利用 双向 RNNs、CNNs 或 者 前 局 网 络 把 模型 变 成 对 上 下 文 依赖 的 词 向 量 表示 愉 。 为 了 将 ELMo 添 加 到 监 
督 模型 中 ， 首 先 冻 结 双 向 语言 模型 的 权重 ， 然 后 利用 * 人 连接 ELMo 向 量 8LMo*， 并 将 ELMo 增 强 表示 [**”，ELMo” 连接 到 任务 
RNN 中 。 


1) 耦合 语言 模型 Bidirectional Language Models 


假设 一 句 话 有 N 个 字符 可 以 表示 为 (t1，t2，.…，tN) 的 序列 ， 正 同 语言 模型 通过 对 序列 片段 (t1，t2，…，tk-1) 建 模 得 到 


字符 tk 的 概率 : 


N 
p(t, boy ttt; Ly ) 一 [ [p(s, t, ba, ttt; bpi) 
k=l 


AH ERENT SIIHAWord Embedding， 输 入 到 L 层 ， 在 前 向 LSTM 网 络 中 进行 伟 
递 ， 在 每 个 位 置 k， 每 个 LSTM 层 都 输出 一 个 和 上 下 文 相关 的 2x;，/ =1，…，Z。 顶 部 的 LSTM 得 到 的 输出 是 Aiz， 连 接 到 


Softmax 层 得 到 预测 下 个 字符 tkj1 的 概率 。 


同 理 ， 后 向 语言 模型 对 序列 片段 建 模 得 到 字符 tk 的 概率 : 


N 
p(t, p bn, °°", ty) = | | p(t, | Leaps bpas °°" 7 
a 
AE ERIC A BS SS REAL, JAERI AUR 


— 


N 
> (logp(t, | ty ts bi; O,, Orsrm, O,) + logp(t, | basis “t's ty; O,, Orsry, O,) ) 
k=1 


其 中 9, 为 字符 表示 参数 ，@。 为 Softmax 层 的 参数 ，@xmw ，@:ww 分 别 是 前 后 向 LSTM s 的 参数 。 
2) ELMo 


FLMo 是 一 种 任务 的 特殊 组 合 形式 ， 由 耦合 语言 模型 的 中 间 层 来 表示 。 对 于 每 个 位 置 上 的 字符 tk， 利 用 L 层 的 而 合 语言 模型 计 


算 2L+1 项 的 表示 : 
_ IM „iM YIM |. _ LM |e 
R, = 1%) ; hgj, hi; J =l, +, L} = hy, J =, =, Li 
其 中 =li Ma], ht 表示 字符 层 。 


_ M 
ELMo 把 R 中 的 所 有 层 为 单一 的 向 量 ，ELMok=E (Ry; Oe) ， 最 简单 的 情况 下 ， 直 接 选 项 层 ， 人 (Rt) =h mE 
况 中 ， 可 以 给 出 耦合 语言 层 的 任务 特定 权重 : 


L 


task task 7 LM 
Y Lory kj 


j=0 


ELMo\™ = E( R, . e atii ) 


在 公式 中 ，stask 是 Softmax 的 归 一 化 的 权重 。ytask 可 以 准许 任务 模型 缩放 ELM 向 量 。 


练 模型 


5.2 JWI 


5.5.1 Embeddings from Language Models (ELMo) 


Bia SHAR SS REE SBME RE RE Pest, COR RSCNNSH ATARI, AREAS 
TSW RAT MARTHA. ERMBS RESIN RRM, Bias S ERREPI A, Fit 
移 到 目 然 语 言 处理 中 。 图 像 识 别 的 预 训练 指 的 是 ， 把 在 A 训 练 集合 中 已 经 训练 好 的 用 于 图 像 识 别 的 模型 ， 添 加 到 其 他 图 像 识 别 的 
模型 中 。 也 可 以 说 把 一 个 任务 中 的 训练 模型 用 于 其 他 的 任务 。ELMo 的 思想 便 是 来 源 于 此 ， 作 者 利用 预 训练 得 到 Context 
Vectors (上 下 文 的 向 量 ) ， 然 后 添加 到 新 模型 的 训练 中 ， 作 为 输入 的 一 部 分 ， 以 这 种 方式 来 提高 模型 的 整体 性 能 。 


通过 学 习 得 到 高 质量 的 预 训 练 词 向 量 是 比较 有 挑战 的 事情 。 首 先 ， 要 能 够 学 习 到 复杂 的 词汇 用 法 ， 比 如 : 语法 和 语义 。 且 能 
够 根据 不 同 的 上 下 文 语 境 得 到 词汇 的 多 义 性 。 


与 大 多 数 广泛 使 用 的 词 验 入 不 同 ，EImo 的 词 表 示 的 是 整个 输入 句子 的 尔 数 。 它 利用 耦合 语言 异型 对 大 规模 的 文本 语 料 进行 
训练 得 到 BiLSTM 网 络 ， 并 使 用 BiLSTM 来 生成 词 向 量 。ELMo 表 示 方 法 是 更 加 深层 的 神经 网 络 消 数 结构 ， 以 往 根据 上 下 文 训练 所 
得 到 的 词 向 量 可 以 被 看 成 是 厅 合 语言 模型 内 部 所 有 层 的 尔 数 。 也 可 以 理解 为 ELMo 实 际 上 是 学 习 了 每 个 词 在 神经 网 络 层 的 一 个 线 
性 组 合 。LSTM 高 层 状 态 可 以 更 好 地 理解 上 下 文中 单词 的 解释 ， 在 有 监督 的 消除 上 义 方面 表现 得 更 好 ， 底 层 状 态 在 语法 建 模 方面 
表现 更 加 出 色 ， 可 以 用 来 做 词性 标注 。 人 在 耦合 语言 蛋 型 通过 大 规模 语 料 预 训练 的 基础 上 ， 很 容易 锌 纳入 现 有 的 神经 网 络 NLP 体系 
下 ， 进 行 半 监 督 的 学 习 。 


当选 择 利用 双向 语言 模型 来 进行 有 监督 的 自然 语言 处 理 任务 时 ， 通 过 计算 得 到 “上 下 文 无 天 ” (Context-Independent) 
的 词 向 量 表示 < ， 然 后 利用 双向 RNNs、CNNs 或 者 前 馈 网 络 把 模型 变 成 对 上 下 文 依赖 的 词 向 量 表示 必 。 为 了 将 ELMo 添 加 到 监 
督 模型 中 ， 首 先 冻结 双向 语言 模型 的 权重 ， 然 后 利用 *: 连接 ELMo 向 量 尼 Wo* ， 并 将 ELMo 增 强 表示 [xx ，ELMor” 连 接 到 任务 
RNN 中 。 
1) 耦合 语言 模型 Bidirectional Language Models 
得 到 | 


假设 一 句 话 有 N 个 字符 可 以 表示 为 〈t1，t2，…，tN) 的 序列 ， 正 向 语言 模型 通过 对 序列 片段 (ty, ta, .., tk-1) 建 模 得 至 


字符 tk 的 概率 : 


N 
p(t, , boy ttt, Ly ) 7 [ [pC t, byy ty t.1) 


k=l 


x, 可 以 是 任意 模型 训练 出 的 Word Embedding， 输 入 到 L 层 ， 在 前 向 LSTM 网 络 中 进行 传 


给 出 上 下 文 无 关 的 字符 表示 * ， 
z LM 
“…， 上 。 顶 部 的 LSTM 得 到 的 输出 是 4.+， 连 接 到 


递 ， 在 每 个 位 置 k， 每 个 LSTM 层 都 输出 一 个 和 上 下 文 相关 的 hx;，7 =1， 


Softmax 层 得 到 预测 下 个 字符 tk+1 的 概率 。 


同 理 ， 后 向 语言 模型 对 序列 片段 建 模 得 到 字符 tk 的 概率 : 


N 
p(t, s bn, °°", ty) = | | p(t, | bats Peay 7" 5 ty ) 
pel 
衫 合 语言 模型 结合 前 后 向 语言 模型 求 字符 tk 概率 的 公式 ， 然 后 求 对 数 的 最 大 似 然 函 数 有 


一 > 


N 
> (logp (i | ty tt, tr; O., Orsrm, O,) + logp(t, | tis t’ ty; O,, Orsry, O,) ) 
k=1 


其 中 6 为 字符 表示 参数 ，9。 为 Softmax 层 的 参数 ，@w，@m 分 别 是 前 后 向 LSTMs 的 参数 。 


2) ELMo 


FLMo 是 一 种 任务 的 特殊 组 合 形式 ， 由 耦合 语言 模型 的 中 间 层 来 表示 。 对 于 每 个 位 置 上 的 字符 tk， 利 用 L 层 的 耦合 语言 模型 计 


算 2L+ 1 项 的 表示 : 


LM 了 LM 了 LM 


R, = En 。 hy; hi; j=l, ve, Ly = hy; 7 =0, see, DY 


7 LM 


LM _ 4 LM LM 
其 中 hi =U, Mag], borer, 


LM 
ELMo 把 R 中 的 所 有 层 为 单一 的 向 量 ，ELMok=E (Ri; Oc) ， 最 简单 的 情况 下 ， 直 接 选 顶层 ，&\ AN) =h 而 在 一 般 情 


况 中 ， 可 以 给 出 耦合 语言 层 的 任务 特定 权重 : 


L 
g task _ task ` _ task task 7 LM 
ELMo”™” = E(R,; yard she 
j=0 


在 公式 中 ，stas< 是 Softmax 的 归 一 化 的 权重 。Yytas “可 以 准许 任务 模型 缩放 ELM 向 量 。 


5.9.2 BERT 


目 然 语言 模型 的 了 预 训练 方面 在 目 然 语言 处 理 各 种 任务 目标 上 都 有 了 较 大 规模 的 改进 。 这 些 任务 中 包括 了 句子 级 别 的 任务 ， 比 
如 目 然 语 言 推理 和 语句 的 释义 。 它 们 的 目的 都 是 通过 对 句子 的 整体 分 析 ， 来 预测 句子 间 的 天 系 。 而 在 词 级 别 的 任务 ， 像 命名 实体 
识别 和 阅读 理解 问答 ， 这 些 模 型 都 要 求 产 出 在 词 级 别 有 细 粒度 的 输出 。 


把 预 训 | 练 语 言 特 征 应 用 于 任务 基本 上 有 两 个 策略 : Feature-Based 和 Fine-Tuning。5.5.1 节 讲 过 的 ELMo， 是 将 预 训练 特征 


作为 附加 特征 ， 是 Feature-Based。Generative Pre-trained Transformer (Open Al GPT) ， 给 定 了 最 小 任务 参数 ， 当 进行 
NLP 任务 的 时 候 可 以 微调 预 训练 模型 的 参数 进行 训练 。 但 由 于 微调 在 语言 模型 中 是 单 向 的 ， 这 样 就 限制 了 预 训练 过 程 的 架构 类 
型 。 例 如 SQuAD 问 答 ， 左 右 两 个 方向 的 语 境 对 任务 来 说 都 比较 重要 。 


SESAN Amies (Bidirectional Encoder Representations from Transformers, BERT) 。BERT 利 用 Masked 
Language Model，MLM 作 为 一 种 新 的 预 训练 目标 语言 模型 。MLM 随 机 的 选择 一 些 词 遮蔽 ， 目 的 是 基于 遮蔽 词语 前 后 的 语 境 
来 预测 被 席 洲 的 部 分 ， 所 以 与 将 微调 方法 从 左 到 右 的 单 向 语言 模型 不 同 ，MLM 结 合 了 上 下 文 ， 也 丈 是 左右 两 侧 的 语 境 。MLM 更 
多 体现 的 是 词 粒 度 上 的 关系 ， 除 此 之 外 ，BERT 还 引入 了 Next Sentence Prediction， 来 预测 下 一 句 的 方法 ， 使 得 预 训 练 在 句 粒 
度 上 也 有 很 好 的 语 境 天 系 。 


1) Fine-tuning 微 调 方法 


Fine-tuning 是 把 迁移 学 习 应 用 于 深度 学 习 语言 模型 的 一 种 学 习 思 想 。 主 要 是 通过 预 训练 来 确定 网 络 模型 以 及 参数 权重 。 在 
实际 应 用 中 ， 通 过 有 选择 的 载 入 预 训 练 模型 ， 再 加 入 新 的 数据 集 重新 训练 模型 ， 使 称 之 为 微调 的 基本 步骤 。 上 典型 的 例子 如 
OpenAl GPT, 


Feature-based 基 于 特征 的 方法 : 


预 训练 的 Word Embeddings 和 传统 的 一 样 ， 把 词 谨 入 概括 为 多 个 不 同 的 维度 ， 这 些 学 习 到 的 表征 通常 用 作 下 游 模型 中 的 特 
征 。 被 广泛 的 用 于 SQUAD 间 答 、 情 绪 分 析 、 命 名 实体 分 析 。 上 典型 的 例子 如 ELMo。 


2) BERT 模 型 


BERT 模 型 的 架构 是 多 层 双 向 的 Transformer。OpenAl GPT 的 架构 使 用 的 是 从 左 到 右 的 Transformer。 而 ELMo 是 使 用 两 组 
独立 训 | 练 的 LSTM 深 层 网 络 联合 架构 ， 其 中 一 组 从 左 到 右 传递 的 LSTMs， 另 外 一 种 是 从 右 到 左 的 LSTMs， 共 同 为 下 游 任 务 生成 筛 
选 特征 。 而 在 这 3 组 不 同 的 模型 架构 中 ， 只 有 BERT 模 型 在 所 有 网 络 层 上 是 从 左 到 右 ， 从 右 到 左 完全 连接 了 上 下 文 ， 三 种 架构 如 图 
5-36 所 示 。 


BERT(Ours) OpenAl GPT 


图 5-36 BERT, OpenAI GPT, ELMo 3 种 模型 的 不 同 架 构 


BERT 模 型 的 输入 是 一 段 文本 ， 也 可 以 理解 是 多 个 文本 句子 。 它 的 输入 可 以 表示 为 与 之 相对 应 的 Word Embeddingsialix 
A, Segment Embeddings 片 段 嵌 入 和 Position Embeddings 位 置 嵌 入 的 总 和 ， 如 图 5-37 所 示 。 
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图 5-37 BERT 输 入 的 表示 示意 
3) BERT 模 型 的 预 训练 


预 训练 : 在 神经 网 络 的 机 器 学 习 过 程 中 ,假设 有 a 和 |B 两 个 任务 ， 在 已 知 Q 任 务 上 ， 我 们 用 a 训练 集合 得 到 网 络 的 参数 ， 并 保 
存 。 当 新 的 任务 B 和 a 及 用 相同 的 网 络 的 时 候 ， 训 练 前 的 网 络 参 数 初 始 化 可 以 加 载 a 已 经 训练 好 的 参数 ， 并 且 其 他 的 高 层 参 数 可 以 
随机 初始 化 。B 任 务 的 训练 数据 用 来 训练 网 络 ， 使 得 随 着 训练 进行 ， 加 载 的 参数 也 开始 随 着 改变 ， 我 们 称 之 为 fine-tuning 微 调 。 
可 以 理解 为 当 任务 Bb 缺乏 训练 数据 时 ， 获 得 任务 a 的 预 训 练 数据 作为 初始 化 ， 随 着 任务 B 训 练 数据 加 入 ， 调 整 参 数 使 之 更 适合 任务 
B. 


4) Masked Language Model 


为 了 训练 双向 特征 ， 使 得 深度 双向 模型 在 多 层 语 境 中 不 能 间接 的 “看 到 自己 ”， 在 句子 中 随机 的 Mask 部 分 的 词 ， 然 后 在 训 | 
练 模型 来 预测 被 Mask 的 词 。 这 个 过 程 被 称 为 Masked Language Model。 但 在 真实 的 训练 中 会 看 到 大 量 的 Mask 标 记 ， 实 际 后 
面 用 到 的 时 候 是 没有 这 些 标记 的 ， 这 会 让 模型 认为 输出 是 针对 Mask 标 记 ， 会 产生 问题 。BERT 采 用 一 些 变形 避免 这 种 问题 的 出 
现 ， 被 Mask 选 中 的 15% 的 部 分 中 只 有 80% 被 替换 成 了 Mask 标 记 ， 另 外 10% 被 替换 成 其 他 词 ，10% 的 词 不 做 替换 。 


- 80%: my dogis hairy->my dogis [| Mask | 80% 的 概率 用 “” [Mask] ”标记 来 替换 。 


- 10%: my dogis haity->my dog is apple 10% 的 概率 用 随机 采样 的 一 个 单词 来 替换 。 


- 10%: my dog is hatry->my dog ts hairy 10% 的 概率 不 做 替换 。 


当 句 子 中 的 某 个 词 在 文本 中 100% 被 Mask， 在 后 面 fine-tuning 的 过 程 中 就 会 出 现 一 些 没 见 过 的 词 出 现 。 著 换 成 其 他 随机 词 
是 为 了 保持 输入 词 的 分 布 ， 否 则 模型 会 固定 的 认为 Mask 束 是 hairy。 


5) Next Sentence Prediction 


句子 粒度 的 学 习 对 理解 句子 间 的 关系 起 到 很 好 的 作用 。 所 以 训练 一 个 基于 句子 关系 的 模型 ， 可 以 更 好 地 执行 很 多 重要 的 下 游 
任务 ， 例 如 : 问答 和 自然 语言 推理 。 一 般 会 选择 句子 c 和 B 来 作为 预 训练 的 样本 ，B 有 一 定 的 几率 是 a 的 下 一 名 lsSNext， 也 有 一 定 
几率 不 是 NotNext。 


输入 = [CLS] 国足 剩 下 的 [MASK] 不 多 了 [SEP] 足球 要 从 [MASK] 抓 起 [SEP] 
Label=IsNext 
输入 = [CLS] 国足 剩 下 的 [MASK] 不 多 了 [SEP] 书法 的 [MASK] 有 很 多 种 [SEP] 


Label=NotNext 


如 果 在 训练 中 随机 的 选择 NotNext 的 语句 ， 最 后 训练 模型 的 任务 目标 也 有 97%~98% 的 准确 率 。 等 于 给 出 一 句 话 ， 它 的 下 一 
句 就 是 正 例 ， 随 机 采样 为 负 例 ， 然 后 在 这 样 的 句子 粒度 上 做 二 分 类 ， 判 断 上 句 和 下 句 是 上 下 文 还 是 噪声 。 


下 游 任务 迁移 : 


NLP 的 任务 具体 的 按照 技术 实现 划分 ， 有 具体 可 以 分 为 几 个 大 类 : 第 一 ， 序 列 标注 ， 包 含 中 文 分 词 CWS、 命 名 实体 识别 
NER、 词 性 标注 、 语 义 标注 。 第 二 ， 文 本 生成 ， 机 器 翻译 、 生 成 摘要 、 模 仿 诗词 和 文章 。 第 三 ， 文 本 分 类 ， 文 本 分 类 、 情 感 计 
算 。 第 四 ， 句子 理 解 ， 机 器 问答 、 语 句 重 写 、 语 义 推断 。 


传统 的 很 多 下 游 的 NLP 任 务 都 可 以 通过 预 训练 得 到 BERT 词 向 量 ， 然 后 只 需要 在 词 向 量 上 加 上 简单 的 后 续 操作 ， 如 分 类 器 或 
者 MLP 束 可 以 了 。 图 5-38、 图 5-39 中 介绍 了 BERT 用 来 优化 下 游 NLP 任 务 的 例子 。 


BERT 更 加 细致 的 梳理 了 最 近 自 然 语言 的 进展 ， 用 最 合理 的 原理 (已 发 表 的 ) 解释 了 自然 语言 的 理解 问题 ， 并 且 刷 新 了 多 项 
NLP 语言 任务 的 分 值 记录 。 即 Transformer 为 主导 的 注意 力 模 型 会 逐渐 代 蔡 CNN 和 RNN。 基于 大 规模 语 料 的 预 训练 和 具体 任务 
的 Fine-Tuning 也 会 成 为 未 来 最 时 暑 的 模型 架构 形式 。 
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图 5-38 BERT 优 化 NLP 任务 事例 1 
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图 5-39 BERT 优 化 NLP 任务 事例 2 
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随 着 人 工 智 能 的 快速 友 展 ， 聊 天 机 器 人 也 受到 越 来 越 多 的 关注 ， 图 灵 测 试 (The Turing Test) ASCE ZEA ARE 1950 
年 提出 ， 如 果 计 算 机 能 够 像 人 类 一 样 用 目 然 语言 进行 交流 ， 那 么 丈 可 以 被 认为 具有 人 工 智能 。 作 为 人 工 智 能 应 用 的 重要 场景 ， 本 
章 将 主要 介绍 聊天 机 器 人 的 友 展 情况 以 及 对 未 来 的 展望 。 


6.1 ”对 话机 器 人 友 展 史 


6.1.1 ”对 话机 器 人 的 近况 


从 1995 年 开始 信息 检索 技术 的 快速 友 展 ， 以 及 Google 的 成 功 ， 基 于 检索 的 聊天 机 器 人 技术 开始 斩 圳 头角， 产生 了 通过 信息 
检索 技术 达到 问题 与 回答 的 最 佳 匹 配 的 聊天 机 器 人 ， 其 不 容易 出 现 语法 错误 ,但 是 它们 可 能 都 无 法 处 理 没 有 预定 义 响应 的 场景 。 


如 图 6-1 所 示 ， 聊 天 机 器 人 经 过 了 不 同 阶段 的 友 展 。 随 着 深度 学 习 的 快速 友 展 ， 生 成 式 聊天 机 器 人 选取 了 不 同 以 往 的 技术 思 
路 ， 在 接收 到 用 户 输入 句子 后 ， 采 用 一 定 技术 手段 目 动 生成 一 句 话 作 为 应 答 ， 这 个 路 绪 的 机 器 人 的 好 处 是 可 以 履 震 任意 话题 的 用 
尸 问 句 ， 但 是 缺点 是 生成 应 答 句 子 质量 很 可 能 会 存在 问题 。 比 如 可 能 存在 语句 不 通顺 ， 存 在 句法 错误 等 看 上 去 比较 低级 的 错误 。 
聊天 机 器 人 主要 分 为 开放 领域 和 垂直 领域 ， 在 开放 语 境 下 ， 用 户 可 以 和 聊天 机 器 人 聊 任 何 话题 属于 开放 领域 类 的 聊天 机 器 人 。 而 
在 封 财 语 境 下 ， 只 能 聊 机 器 人 设 定 好 属于 垂直 领域 类 主题 的 聊天 机 器 人 。 


Start 是 MIT 大 学 计算 机 科学 系 人 工 智能 实验 室 1993 年 开发 的 世界 第 一 款 基于 Web 的 问答 系统 。 区 别 于 常见 的 信息 检索 系 
统 ，Start 可 以 给 用 户 提供 恰到好处 的 信息 。 到 目前 为 止 该 系统 已 经 可 以 为 用 户 解 答 数 百 万 条 关于 地 点 、 电 影 、 人 物 等 不 同类 型 


的 问题 。 


Google Now 是 一 款 由 Google 开 发 的 智能 型 个 人 助理 软件 ， 主 要 是 用 来 扩充 Google 搜 索 手 机 应 用 程序 的 功能 。 其 主要 是 通 
过 一 系列 的 Web 服 务 来 进行 回答 问题 以 及 提供 建议 的 操作 ， 其 也 会 基于 用 户 过 往 的 搜索 习惯 来 预测 可 能 需要 的 信息 。 


Eliza Jabberwacky A.L.I.C.E. Siri Google Now Tay 


Parry Dr. Sbaltso Samrterchild Watson Alexa More 
Cortana 


图 6-1 ”聊天 机 器 人 发 展 史 


此 外 ， 国 内 近年 来 在 智能 聊天 机 器 人 领域 也 有 快速 的 友 展 。 在 地 直 聊天 机 器 人 领域 中 ， 出 现 了 如 阿里 巴巴 的 小 蜜 、 唯 品 会 的 
小 | 等。 而 在 开放 领域 内 则 有 百度 的 度 秘书 等 。 此 外 还 有 大 量 相关 的 创业 型 公司 中 跃 出现 。 


6.1 ”对 话机 器 人 友 展 史 


6.1.1 ”对 话机 器 人 的 近况 


从 1995 年 开始 信息 检索 技术 的 快速 友 展 ， 以 及 Google 的 成 功 ， 基 于 检索 的 聊天 机 器 人 技术 开始 斩 圳 头角， 产生 了 通过 信息 
侈 系 技 术 达 到 问题 与 回答 的 最 佳 匹 配 的 聊天 机 器 人 ， 其 不 容易 出 现 语法 错误 ， 但 是 它们 可 能 都 无 法 处 理 没 有 预定 义 啊 应 的 场景 。 


如 图 6-1 所 示 ， 聊 天 机 器 人 经 过 了 不 同 阶段 的 友 展 。 随 看 深度 学 习 的 快速 友 展 ， 生 成 式 聊天 机 器 人 选取 了 不 同 以 往 的 技术 思 
路 ， 在 接收 到 用 户 输入 句子 后 ， 采 用 一 定 技术 手段 目 动 生成 一 句 话 作 为 应 答 ， 这 个 路 绪 的 机 器 人 的 好 处 是 可 以 履 兰 任意 话题 的 用 
尸 问 句 ， 但 是 缺点 是 生成 应 答 句 子 质量 很 可 能 会 存在 问题 。 比 如 可 能 存在 语句 不 通顺 ， 存 在 句法 错误 等 看 上 去 比较 低级 的 错误 。 
聊天 机 器 人 主要 分 为 开放 领域 和 垂直 领域 ， 在 开放 语 境 下 ， 用 户 可 以 和 聊天 机 器 人 聊 任 何 话题 属于 开放 领域 类 的 聊天 机 器 人 。 而 
在 封 财 语 境 下 ， 只 能 聊 机 器 人 设 定 好 属于 垂直 领域 类 主题 的 聊天 机 器 人 。 

start 是 MIT 大 学 计算 机 科学 系 人 工 智能 实验 室 1993 年 开 友 的 世界 第 一 款 基 于 Web 的 问答 系统 。 区 别 于 单 见 的 信息 检 款 系 
统 ，start 可 以 给 用 户 提供 恰到好处 的 信息 。 到 目前 为 止 该 系统 已 经 可 以 为 用 户 解答 数 特 万 条 关于 地 点 、 电 影 、 人 物 等 不 同类 型 
的 问题 。 


Google Now 是 一 款 由 Google 开 发 的 智能 型 个 人 助理 软件 ， 主 要 是 用 来 扩充 Google 搜 索 手 机 应 用 程序 的 功能 。 其 主要 是 通 
过 一 系列 的 Web 服 务 来 进行 回答 问题 以 及 提供 建议 的 操作 ， 其 也 会 基于 用 户 过 往 的 搜索 习惯 来 预测 可 能 需要 的 信息 。 


Eliza Jabberwacky A.L.LC.E. Siri Google Now Tay 


Parry Dr. Sbaltso Samrterchild Watson Alexa More 
Cortana 


图 6-1 聊天 机 器 人 发 展 史 


此 外 ， 国 内 近年 来 在 智能 聊天 机 器 人 领域 也 有 快速 的 友 展 。 在 地 直 聊天 机 器 人 领域 中 ， 出 现 了 如 阿里 巴巴 的 小 蜜 、 唯 品 会 的 
小 等 。 而 在 开放 领域 内 则 有 百度 的 度 秘 书 等 。 此 外 还 有 大 量 相 天 的 创业 型 公司 踊跃 出 现 。 


6.1.2 ”开放 域 


开放 领域 的 聊天 机 器 人 可 以 通过 各 种 话题 和 用 户 展开 互动 ， 用 户 不 需要 有 明确 的 目的 或 意图 。 比 如 面 癌 社区 媒体 网 站 上 的 对 
话 通 常 是 开放 领域 的 ， 它 们 可 以 谈论 任何 方 同 的 任何 话题 。 无 数 的 话题 以 及 生成 对 应 合理 反应 所 需要 的 知识 规模 ， 使 得 开放 领域 


的 聊天 机 器 人 实现 具有 相当 大 的 难度 。 


基于 检索 的 开放 领域 聊天 机 器 人 ， 对 语 料 要 求 很 高 AnswerBus 是 一 个 开放 域 的 问题 问答 式 系统 ， 其 实现 了 基于 句子 层面 
的 信息 检索 。 其 支持 多 语种 ， 但 是 AnswerBus 系 统 并 不 会 给 出 问题 的 具体 答案 ， 而 是 主要 返回 包含 答案 的 句子 和 文档 。 


而 基于 深度 学 习 的 生成 类 型 的 聊天 机 器 人 在 处 理 开 放 领 域 具有 先天 的 优势 。 通 过 Seq2Seq 模 型 根据 聊天 语 料 生 成 的 用 聊 型 
对 话机 器 人 ， 比 如 微软 的 小 冰 。 微 软 小 冰 是 微软 Bing 搜 索 中国 团 队友 布 的 一 球 智 能 聊天 机 器 人 ， 除 了 智能 聊天 ， 还 有 天 气 预 
报 、 星 座 人 查询 等 实用 功能 。 微 软 小 冰 集 合 了 中 国 近 7 亿 网 民 数 年 积累 以 及 全 部 公开 的 聊天 语 料 ， 最 后 通过 机 器 学 习 和 目 然 语言 处 
理 精 炼 了 1500 万 真实 的 语料库 。 


6.1.3 HEE nual 


对 于 垂直 领域 的 聊天 机 器 人 ， 用 户 只 能 同 聊天 机 器 人 聊 设 定好 的 固定 主题 。 但 垂直 领域 的 机 器 人 搭建 更 简单 实用 。 因 为 系统 
试图 实现 一 个 非常 特定 的 目标 ， 所 以 其 可 能 的 输入 和 输出 的 空间 是 有 限 的 。 比 如 针对 iT 技术 支持 或 电子 商务 领域 的 购物 助理 ， 这 
些 系统 不 需要 谈论 政治 等 话题 ， 只 需要 尽 可 能 有 效 地 完成 具体 任务 便 可 。 


阿里 小 蜜 是 电子 商务 领域 的 智能 私人 助理 ， 是 基于 阿里 海量 的 消费 和 商家 数据 ， 结 合 线 上 、 线 下 的 生活 场景 需求 ， 以 “智能 
+ 人 工 ” 的 模式 提供 智能 导购 、 服 务 、 助 理 的 拟人 交互 业务 等 体验 。 

素 直 领域 的 聊天 机 器 人 将 对 话 系 统 从 整体 染 构 上 分 成 两 层 : 

1) 意图 识别 层 : 识别 语言 的 真实 意图 ， 将 意图 进行 分 类 并 进行 意图 属性 抽取 。 意 图 决定 了 后 续 的 领域 识别 流程 ， 因 此 意图 
层 是 一 个 结合 上 下 文 数据 模型 与 领域 数据 模型 并 不 断 对 意图 进行 明确 和 推理 的 过 程 。 


2) 问答 匹配 层 : 对 问题 进行 匹配 识别 及 生成 答案 的 过 程 。 在 阿里 小 密 的 对 话 体系 中 会 按照 业务 场景 进行 不 同 典型 问题 类 型 
的 划分 ， 并 且 依 据 不 同类 型 及 用 不 同 的 匹配 流程 和 方法 。 


6.1.4 ”对 话机 器 人 的 未 来 友 展 趋 势 


伴随 着 智能 瓜 术 与 生态 系统 的 日 益 成 熟 与 完善 ， 聊 天 机 器 人 创业 公司 也 攻 勃 发 展 ， 不 过 由 于 聊天 机 器 人 还 处 于 发 展 早期 阶 
段 ， 其 在 未 来 得 到 跨越 式 友 展 也 是 非常 具有 挑战 性 的 ， 要 面临 的 最 大 的 挑战 之 一 就 是 如 何 访 问 并 获取 大 量 的 数据 。 例 如 在 大 量 零 
售 业 的 例子 中 ， 对 于 消费 者 而 言 ， 很 多 消费 者 并 不 想 与 电脑 互动 ， 他 们 更 希望 有 真人 客服 来 帮助 其 解决 问题 。 但 对 于 零售 商 而 
， 他 们 希望 能 够 利用 这 项 最 新 的 技术 来 调整 服务 ， 并 为 消费 者 提供 更 加 人 简单 高 效 的 产品 订购 方式 。 


Lilt 


在 编译 收集 各 种 数据 后 ， 还 必须 要 考虑 到 聊天 机 器 人 在 与 不 同 的 个 人 交互 时 的 心理 学 ， 通 过 心理 学 来 判定 每 个 人 的 性 格 在 对 
话 中 对 于 用 户 体验 的 影响 。 同 一 个 群体 的 不 同 成 员 对 于 同一 件 事 都 会 有 完全 不 同 的 摘 述 方式 ， 那 么 这 时 候 聊 天 机 器 人 将 如 何 与 人 
们 进行 交互 呢 ” 此外， 何 时 才 是 机 器 人 插入 对 话 的 合适 时 机 ”它们 是 如 何 引 导 广 大 用 户 群 体 找到 正确 的 解决 方案 的 ”聊天 机 器 人 
在 交互 体验 更 加 拟人 化 ， 能 更 好 地 理解 、 预 测 语言 与 场景 化 词汇 中 面临 如 下 多 重 挑战 。 


1) 整合 语 境 的 挑战 : 为 了 生成 明智 的 回复 ， 系 统 可 能 需要 整合 语言 语 境 和 物理 语 境 。 在 长 对 话 中 ， 人 们 记录 已 经 被 说 过 的 
话 和 已 经 交换 过 的 信息 ， 这 是 结合 语言 语 境 的 例子 。 最 普遍 的 方法 是 将 对 话 贡 入 一 个 向 量 中 ， 但 在 长 对 话 上 进行 这 样 的 操作 是 极 
襄 挑 战 性 的 。 此 外 还 可 能 需要 整合 其 他 类 型 的 语 境 数据 ， 例 如 日 期 /时 间 、 位 置 或 用 尸 信息 ，。 


2) 一 致 人 格 的 挑战 : 当 生成 回复 时 ， 对 于 语义 相同 的 输入 ， 代 理应 该 生成 相同 的 回答 。 例 如 ， 你 想 在 “你 多 大 
了 ? ”和 “你 的 年 龄 是 多 少 ? ”上 得 到 同样 的 回答 。 这 听 起 来 很 简单 ， 但 是 将 固定 的 知识 或 者 人 格 整合 进 模型 是 非常 困难 的 研究 
课题 。 许 多 系统 都 在 学 习 如 何 生 成 语义 合理 的 回复 ， 但 是 它们 疫 有 被 训练 如 何 生 成 语义 上 一 致 的 回复 。 这 一 般 是 因为 它们 是 基于 
多 个 不 同 用 尸 的 数据 训练 的 。 


3) 意图 与 多 样 性 挑战 : 生成 式 系统 的 普遍 问题 是 它们 往往 能 生成 像 “ 太 好 了 !” 或 “我 不 知道 ”这 样 的 能 适用 于 许多 输入 情 
况 的 普遍 回复 。 合 歌 的 智能 回复 (Smart Reply) 早期 版 本 常 党 用 “我 爱 你 ”回复 一 切 。 一 定 程度 上 这 是 系统 根据 数据 和 实际 训 | 
练 目标 /算法 训练 的 结果 。 然 而 ， 人 类 通 弟 针对 输入 的 回复 是 市 有 意图 的 。 由 于 生成 系统 ， 特 别 是 开 域 系统 是 不 被 训练 成 有 特定 
意图 的 ， 所 以 它们 缺乏 这 种 多 样 性 。 


整体 来 看 ， 聊 天 机 器 人 经 历 了 从 问答 机 器 人 到 对 语 机 器 人 的 友 展 ， 但 目前 大 部 分 的 聊天 机 器 人 都 属于 问答 机 器 人 ， 也 残 是 只 
能 处 理 一 问 一 答 ， 不 能 很 好 地 处 理 对 话 ， 或 者 说 不 能 处 理 上 下 文 ， 并 不 具备 真正 的 人 工 智能 特征 。 对 话机 器 人 现在 是 研究 热点 ， 
也 是 趋势 。 但 目前 并 没有 成 熟 的 对 话机 器 人 ， 即 使 是 号 称 支 持 对 话 的 机 器 人 也 是 用 规则 或 者 状态 机 来 处 理 对 话 ， 能 力 非 常 有 限 ， 
达 不 到 实用 的 目的 。 


6.2 人工 智 能 在 对 话机 器 人 中 的 应 用 


6.2.1 深度 学 习 人 在 机 器 人 方面 的 应 用 


深度 学 习 的 概念 源 于 人 工 神 经 网 络 的 研究 ， 是 机 器 学 习 的 子 领域 ， 是 使 用 深度 神经 网 络 来 (Deep Neural 

Network, DNN) 实现 的 一 种 机 器 学 习 广 法。 但 其 与 大 脑 中 一 个 神经 元 可 以 连接 一 定 距离 内 的 任意 神经 元 不 同 ， 人 工 神 经 网 络 
具有 离散 的 层 、 连 接 和 数据 传播 的 方 同 ， 本 质 上 是 构建 从 有 多 隐 层 的 机 器 学 习 架 构 模 型 ,通过 大 规模 数据 进行 训练 ， 得 到 大 量 更 
具 代 表 性 的 特征 信息 ， 从 而 对 样本 进行 分 类 和 预测 ， 提 高 分 类 和 预测 的 精度 。 这 个 过 程 是 通过 深度 学 习 模 型 的 手段 来 达到 | 特征 学 
习 的 目的 。 深 度 学 习 是 学 习 样 本 数据 的 内 在 规律 和 表示 层次 ， 这 些 学 习 过 程 中 获得 的 信息 对 诸如 文字 、 图 像 和 声音 等 数据 的 解释 
有 很 大 的 帮助 。 随 看 DNN 技 术 企 图 像 处 理 、 语 音 识 别 等 领域 取得 的 进展 和 突破 ， 许 多 研究 人 员 开始 把 PNN 技 术 应 用 在 NLP 领域 
当中 。 最 近 几 年 ， 深 度 昼 经 网 络 扩 术 在 目 然 语 言 处 理 任 务 中 得 到 了 广泛 的 应 用 ， 并 取得 了 很 好 的 效果 。 由 于 深度 学 习 算 法 能 够 让 
机 器 具有 很 好 的 分 析 学 习 能 力 ， 近 年 来 深度 学 习 在 聊天 机 器 人 上 的 应 用 也 越 来 越 多 。 


1) 意图 识别 : 在 聊天 机 器 人 多 轮 对 话 中 ， 如 何 根据 上 下 文理 解 用 尸 的 意图 是 多 轮 交 互 中 的 一 个 重点 问题 ， 也 是 一 个 难点 问 
题 。 现 有 的 问 句 理解 方法 大 多 是 针对 单 句 且 侧 重 于 某 种 句 式 结 构 的 理解 。 如 何 根据 上 下 文 语 境 对 当前 用 尸 的 意图 进行 识别 ， 而 不 
是 仪 仅 是 针对 单 轮 进 行 一 个 个 分 析 ， 使 得 对 话 在 一 个 连续 的 语 境 下 具备 细 粒 度 。 


2014 年 ， 纽 约 大 学 的 Kim 在 训练 的 词 向 量 的 基础 上 研究 了 卷 积 神经 网 络 (CNN) 模型 在 自然 语言 问 句 分 类 上 的 应 用 ， 和 牛津 
大 学 Kalchbrenner 等 人 构建 了 一 种 动态 卷 积 神经 网 络 模型 DCNN ， 用 于 模拟 句子 的 语义 信息 ， 从 而 对 自然 语言 问 句 进行 分 类 。 
2016 年 纽约 大 学 的 Komninos 等 人 研究 了 Word Embedding 对 深度 神经 网 络 的 影响 ， 他 们 研究 发 现在 自然 语言 问 句 多 意图 分 类 
的 实验 中 采用 基于 上 下 问 的 词 嵌 入 可 以 获得 较 好 的 实验 效果 。2018 年 Google 推 出 了 Bert 模 型 ，BERT 是 一 种 预 训练 语言 表示 的 方 
法 ， 是 基于 一 个 大 型 文本 语料库 上 训练 的 一 个 通用 模型 ， 然 后 将 模型 应 用 于 通用 任务 。 


2) 生成 模型 : 在 聊天 机 器 人 发 展 的 早期 阶段 ， 基 于 生成 模型 的 聊天 机 器 人 主要 利用 规则 的 方式 将 文本 组 合 进行 问题 的 回 
答 。 而 随 着 深度 学 习 的 友 展 ，Seq2Seq 开 始 应 用 到 基于 生成 模型 的 聊天 机 器 人 问答 系统 ，Seq2Seq 即 Encoder-Decoder 模 型 ， 
也 惑 是 编码 一 解码 模型 。 所 谓 编码 ， 融 是 将 输入 序列 转化 成 一 个 固定 长 度 的 向 量 。 解 码 ， 束 是 将 之 前 生成 的 固定 向 量 再 转化 成 


输出 序列 。 基 于 Seq2Seq 的 聊天 机 器 人 模型 ， 就 是 将 问题 和 回答 训练 语 料 分 别 当 作 编 码 和 解码 训 | 练 。Google 曾 尝试 利用 
Seq2Seq 模 型 训练 |T 客 服 机 器 人 ，Seq2Seq 模 型 如 图 6-2 所 示 。 


图 6-2 ”Seq2Seq 的 网 络 结构 


6.2 ”人工 智能 在 对 话机 器 人 中 的 应 用 


6.2.1 深度 学 习 在 机 器 人 万 面 的 应 用 


深度 学 习 的 概念 源 于 人 工 神经 网 络 的 研究 ， 是 机 器 学 习 的 子 领域 ， 是 使 用 深度 神经 网 络 来 (Deep Neural 

Network, DNN) 实现 的 一 种 机 器 学 习 方 法。 但 其 与 大 脑 中 一 个 神经 元 可 以 连接 一 定 距离 内 的 任意 神经 元 不 同 ， 人 工 神 经 网 络 
具有 离散 的 层 、 连 接 和 数据 传播 的 方 同 ， 本 质 上 是 构建 从 有 多 隐 层 的 机 器 学 习 架 构 模 型 ， 通 过 大 规模 数据 进行 训练 ， 得 到 大 量 更 
具 代 表 性 的 特征 信息 ， 从 而 对 样本 进行 分 类 和 预测 ， 提 高 分 类 和 预测 的 精度 。 这 个 过 程 是 通过 深度 学 习 模 型 的 手段 来 达到 | 特征 学 
习 的 目的 。 深 度 学 习 是 学 习 样 本 数据 的 内 在 规律 和 表示 层次 ， 这 些 学 习 过 程 中 获得 的 信息 对 诸如 文字 、 图 像 和 声音 等 数据 的 解释 
有 很 大 的 帮助 。 随 看 DNN 技 术 企 图 像 处 理 、 语 音 识 别 等 领域 取得 的 进展 和 突破 ， 许 多 研究 人 员 开 始 把 PNN 技 术 应 用 在 NLP 领域 
当中 。 最 近 几 年 ， 深 度 昼 经 网 络 扩 术 在 目 然 语 言 处 理 任 务 中 得 到 了 广泛 的 应 用 ， 并 取得 了 很 好 的 效果 。 由 于 深度 学 习 算 法 能 够 让 
机 器 具有 很 好 的 分 析 学 习 能 力 ， 近 年 来 深度 学 习 在 聊天 机 器 人 上 的 应 用 也 越 来 越 多 。 


1) 意图 识别 : 在 聊天 机 器 人 多 轮 对 话 中 ， 如 何 根据 上 下 文理 解 用 尸 的 意图 是 多 轮 交 互 中 的 一 个 重点 问题 ， 也 是 一 个 难点 问 
题 。 现 有 的 问 句 理解 方法 大 多 是 针对 单 句 且 侧 重 于 某 种 句 式 结 构 的 理解 。 如 何 根据 上 下 文 语 境 对 当前 用 尸 的 意图 进行 识别 ， 而 不 
是 仪 仅 是 针对 单 轮 进 行 一 个 个 分 析 ， 使 得 对 话 在 一 个 连续 的 语 境 下 具备 细 粒 度 。 


2014 年 ， 纽 约 大 学 的 Kim 在 训练 的 词 向 量 的 基础 上 研究 了 卷 积 神经 网 络 (CNN) 模型 在 自然 语言 问 句 分 类 上 的 应 用 ， 和 牛津 
大 学 Kalchbrenner 等 人 构建 了 一 种 动态 卷 积 神经 网 络 模型 DCNN ， 用 于 模拟 句子 的 语义 信息 ， 从 而 对 自然 语言 问 句 进行 分 类 。 
2016 年 纽约 大 学 的 Komninos 等 人 研究 了 Word Embedding 对 深度 神经 网 络 的 影响 ， 他 们 研究 发 现在 自然 语言 问 句 多 意图 分 类 
的 实验 中 采用 基于 上 下 问 的 词 嵌入 可 以 获得 较 好 的 实验 效果 。2018 年 Google 推 出 了 Bert 模 型 ，BERT 是 一 种 预 训练 语言 表示 的 方 
法 ， 是 基于 一 个 大 型 文本 语料库 上 训练 的 一 个 通用 模型 ， 然 后 将 模型 应 用 于 通用 任务 。 


2) 生成 模型 : 在 聊天 机 器 人 发 展 的 早期 阶段 ， 基 于 生成 模型 的 聊天 机 器 人 主要 利用 规则 的 方式 将 文本 组 合 进行 问题 的 回 
答 。 而 随 着 深度 学 习 的 友 展 ，Seq2Seq 开 始 应 用 到 基于 生成 模型 的 聊天 机 器 人 问答 系统 ，Seq2Seq 即 Encoder-Decoder 模 型 ， 
也 就 是 编码 一 解码 模型 。 所 谓 编码 ， 束 是 将 输入 序列 转化 成 一 个 固定 长 度 的 向 量 。 解 码 ， 束 是 将 之 前 生成 的 固定 向 量 再 转化 成 
输出 序列 。 基 于 Seq2Seq 的 聊天 机 器 人 模型 ， 就 是 将 问题 和 回答 训练 语 料 分 别 当 作 编 码 和 解码 训练 。Google 闸 尝试 利用 


Seq2Seq 模 型 训练 IT 客服 机 器 人 ，Seq2Seq 模 型 如 图 6-2 所 示 。 


图 6-2 ”Seq2Seq 的 网 络 结构 


6.2.2 ”强化 学 习 在 机 器 人 万 面 的 应 用 


强化 学 习 是 机 器 学 习 中 的 一 个 领域 ， 强 调 如 何 基 于 环境 而 行动 ， 以 取得 最 大 化 的 预期 利益 。 其 灵感 来 源 于 心理 学 中 的 行为 主 
义理 论 ， 即 有 机 体 如 何在 环境 给 予 的 奖励 或 惩 神 的 刺激 下 ， 逐 步 形 成 对 刺激 的 预期 ， 严 生 能 获得 最 大 利益 的 习惯 性 行为 。 强 化 学 
习 的 灵感 来 源 于 人 类 在 与 周围 的 环境 直接 接触 中 学 习 知 识 。 在 婴儿 时 期 ， 一 个 人 在 不 能 理解 语言 的 情况 下 ， 并 不 能 从 周围 同类 中 
接受 直接 的 捐 导 ， 他 只 能 通过 在 一 定 空间 内 挥动 手臂 ， 做 出 一 定 的 动作 ， 来 了 解 环境 与 本 身 的 联系 与 因果 ， 了 解 做 出 什么 样 的 动 
作 才 能 达到 目的 。 纵 虎 和 人 的 一 生 ， 这 种 学 习 的 方式 也 占 了 很 大 的 比重 。 例 如 我 们 在 学 习 雪 驶 汽车 或 者 正音 聊天 人 交往 的 时 候 ， 我 们 
能 够 准确 地 知道 我 们 的 行为 会 对 环境 市 来 怎么 样 的 变化 ， 并 且 选 择 合适 的 动作 让 事情 按照 我 们 期 望 的 友 展 下 去 。 


强化 学 习 中 的 学 习 是 指 ， 一 个 数学 模型 学 习 在 特定 情况 下 做 出 什么 样 的 动作 可 以 得 到 更 高 的 收益 。 强 化 学 习 的 整个 学 习 的 过 
是 是 封闭 的 ， 这 种 封闭 是 指 模 型 的 优化 并 不 依赖 于 人 为 的 指导 或 数据 的 标签 。 整 个 学 习 过 程 在 时 间 序 列 中 完成 ， 在 每 一 个 时 间 节 
护 ， 我 们 并 不 会 告诉 算法 去 采取 何 种 动作 ， 而 是 让 其 去 尝试 不 同 的 动作 ， 其 目 然 会 得 到 环境 给 他 的 奖励 ， 在 不 断 的 尝试 中 ， 模 型 
便 能 学 习 到 采取 何 种 动作 才能 获得 高 收 葵 。 在 许多 复杂 的 问题 中 ， 模 型 当前 采取 的 动作 不 仅 会 影响 当前 的 收益 ， 甚 至 还 会 影响 到 
后 面 的 长 期 收 蔡 。 


蒙特 利 尔 大 学 Yoshua Bengio 等 人 提出 基于 强化 学 习 的 聊天 机 器 人 MILABOT，MILABOT 完 全 采用 基于 统计 机 器 学 习 的 方 
法 。 在 MILABOT 中 ，Dialogue Manger (DM) 组 合 了 一 系列 的 响应 模型 ， 由 DM 担当 强化 学 习 中 的 智能 体 ， 其 控制 结构 如 图 
6-3 所 示 。DM 将 所 有 模型 的 响应 (Response) 以 一 定 的 策略 组 合 在 一 起 。 在 MILABOT 的 设计 中 ， 响 应 模型 使 用 了 多 种 策略 ， 
生成 各 种 话题 的 响应 。 


对 话 啊 应 选择 策略 


对 话 啊 应 模型 


是 否 有 优选 


产生 对 话 候选 集 


Fe 


对 话 历 史 
ASR 可 信 度 返回 优选 啊 应 返回 已 选 啊 应 


图 6-3 ”DM 控制 结构 


该 系统 结合 深度 学 习 和 强化 学 习 ， 利 用 循环 神经 网 络 、 序 列 到 序列 模型 和 隐 变 量 模 型 等 进行 目 然 语言 检索 和 生成 ， 这 些 模 型 
连接 成 一 个 整体 ， 生 成 一 个 对 话 响 应 的 候选 集合 。 然 后 进一步 使 用 强化 学 习 (包括 价值 尔 数 和 策略 梯度 万 法 ) 训练 该 系统 ， 最 后 
从 绕 合 系统 的 模型 中 选择 一 个 合适 的 响应 。 这 个 合适 的 响应 是 基于 真实 用 户 和 该 系统 初代 版 本 之 间 的 互动 的 记录 ，。 


6.2.3 ”知识 图 应 在 机 器 人 万 面 的 应 用 


知识 图 谐 于 2012 年 由 谷歌 提出 ， 是 为 了 更 加 准确 的 语义 搜索 ， 其 目的 在 解决 原 有 的 天 键 字 搜索 仅 基 于 字符 串 而 无 法 理解 内 
容 语义 的 局 限 性 。 知 识 图 谱 主 要 目标 是 用 来 拉 述 真实 世界 中 存在 的 各 种 实体 和 概念 ， 以 及 它们 之 间 的 强 关 系 。 我 们 用 关系 去 摘 述 
两 个 实体 之 间 的 关联 。 知 识 图 谱 不 仪 只 有 以 各 种 类 型 的 实体 为 节操 的 实体 图 ， 相 比 谷歌 的 实体 图 谱 ，Facebook 呈 现 了 另 一 种 天 
联 人 、 事 、 物 的 兴趣 图 谱 ;， 兴 趣 图 谱 节 点 和 边 的 类 型 没有 那么 丰富 ， 但 是 包含 的 节点 数 更 多 ， 币 密 程度 也 更 高 。 


1) 知识 库 的 表示 形式 


为 了 方便 计算 机 的 处 理 和 理解 ， 我 们 需要 以 更 加 形式 化 、 简 洁 化 的 方式 去 表示 知识 ， 那 就 是 三 元 组 (Triple) 。“ 姚 明 出 生 
于 中 国 上 海 ” 可 以 用 三 元 组 表示 为 (Yao Ming, Place of Birth, Shanghai) 。 这 里 可 以 简单 地 把 三 元 组 理解 为 (实体 
entity、 实 体 关 系 relation 和 实体 entity) 。 如 果 我 们 把 实体 看 作 是 结 点 ， 把 实体 关系 (包括 属性 、 类 别 等 ) 看 作 是 一 条 边 ， 那 么 
包含 了 大 量 三 元 组 的 知识 库 就 成 为 一 幅 庞 大 的 知识 图 ， 上 述 例子 如 图 6-4 所 示 。 


Location 


Person 34(Int) 


图 6-4 知识 图 谱 的 表征 


知识 图 谱 也 被 广泛 用 于 各 种 问答 交互 场景 中 。 例 如 IBM 的 Watson 所 背后 依托 的 DBpedia 和 Yago 等 百科 知识 库 ， 以 及 百度 推 
出 的 DuerOS 背 后 也 都 有 海量 知识 库 的 支撑 ， 阿 里 小 密 也 将 知识 图 谱 构 建 以 及 检索 模型 相 结 合 的 方式 来 进行 核心 匹配 模型 的 设 
计 。 

2) 实体 命名 识别 


实体 识别 (Named Entity Recognition, NER) 在 传统 的 NLP 任务 中 ， 仅 能 识别 PERSON (人 物 ) 、LOCATION (地 
Fa) 、ORGANIZATION (组 织 机 构 ) 、DATE (时 间 日 期 ) 等 有 限 类 别 。 而 在 实际 应 用 中 ，NER 的 主要 挑战 在 于 识别 大 量 的 细 
粒度 实体 类 型 。 此 外 ， 分 类 体系 是 有 层次 结构 的 ， 那 如 何 保证 底层 的 细 粒 度 类 别 上 有 令 人 满足 的 识别 率 ? 比如 在 智能 聊天 机 器 人 
的 应 用 中 ， 当 用 户 提 问 “ 这 款 苹果 手机 iphone8 多 少 钱 ? ”， 通 过 命名 实体 以 及 知识 图 谱 可 以 检索 到 苹果 手机 iphone8 相 关 的 价 
格 和 其 他 信息 。 


3) 数据 增强 


NLP 是 聊天 机 器 人 的 基础 ， 而 大 量 NLP 任 务 可 转换 为 有 监督 的 分 类 或 序列 标注 问题 。 如 果 将 深度 学 习 应 用 于 聊天 机 器 人 ,我 
们 会 苦于 语料库 的 建设 。 而 知识 图 谱 可 以 应 用 于 数据 增强 ,具体 丈 是 通过 将 知识 图 谱 与 文本 语料库 关联 ， 形 成 大 量 弱 标 注 数 据 ， 


从 而 可 以 广泛 应 用 于 天 系 抽取 或 事件 抽取 等 任务 上 。 


4) 知识 问答 


我 们 知道 句子 理解 的 难点 在 于 NLU (Natural Lanuage Understanding) ， 而 候选 答案 生成 则 与 检索 过 程 天 联 ， 那 么 可 以 
重点 考虑 各 种 基于 证 据 的 收集 和 学 习 排 序 算法 。 比 如 针对 开放 性 问题 ， 用 户 说 “你 觉得 范冰冰 怎么 样 ? ”， 这 是 一 个 开放 性 意见 
询问 类 查询 ， 为 了 使 得 答案 的 多 样 化 ， 可 以 从 不 同 网 络 渠道 站 点 抓 到 范冰冰 相关 的 信息 ， 如 演员 信息 以 及 大 众 对 范冰冰 的 评论 ， 
此 外 ， 通 过 范冰冰 的 知识 图 谱 ， 还 可 以 知道 学 冰冰 和 李 晨 是 情 介 关系， 范冰冰 的 电影 有 《二 次 上 曝光》 等 ， 通 过 这 些 知 识 图 谱 的 天 
联 信息 可 以 更 好 地 支持 问答 系统 。 


SA BASRA 


前 文 我 们 已 经 了 解 了 自然 语言 理解 的 精髓 ， 但 是 同样 重要 的 知识 图 谱 又 是 如 何 与 它 结合 的 呢 ? 本 章 就 让 我 们 一 起 了 解 一 下 相 
天 内 容 。 


7.1 ARABS: 三 元 组 模型 


知识 图 谱 (Knowledge Graph) 这 个 概念 最 早 是 谷歌 公司 于 2012 年 提出 的 ， 是 为 了 准确 的 阐述 各 种 人 、 事 、 物 之 间 的 相互 
天 系 而 创建 ， 最 早 是 服务 于 搜索 引 警 。 这 种 把 各 种 人 、 事 、 物 用 概念 的 方法 来 描述 被 称 为 实体 (Entity) ， 又 叫 作 本 体 
(Ontology) 。 而 知识 图 谱 是 为 了 准确 曾 述 文本 的 语义 ， 而 建立 起 来 的 自然 界 中 实体 关系 的 知识 数据 库 。 一 般 来 说 用 关系 图 来 
表示 知识 图 谱 ， 如 图 7-1 所 示 。 实 体 通 常用 图 (Graph) 中 的 节点 (Vertex) 表示 ， 而 实体 间 的 关系 (Relation) 则 用 图 中 的 边 
(Edge) 表示 。 


语言 学 知识 和 常 | 人 类 学 到 的 数据 库存 | ”百科 全 书 
识 性 知识 储 的 知识 知识 


图 7-1 知识 图 谱 的 概念 
知识 图 谱 的 组 成 三 要 素 : 知识 图 谱 的 组 成 三 要 素 分 别 是 实体 ， 属 性 和 关系 的 三 元 组 。 


实体 : 各 种 人 、 事 、 物 用 概念 的 方法 来 描述 ， 独 立 且 区 别 于 其 他 存在 的 事物 被 称 为 实体 (Entity) ， 又 叫 作 本 体 
(Ontology) 。 实 体 是 知识 图 谱 中 最 基本 的 元 素 。 


AA: 在 知识 图 谱 中 ， 关 系 表示 知识 图 谱 中 的 边 ， 用 来 表示 不 同 实体 间 的 某 种 联系 。 如 图 7-2 所 示 ， 人 物 实体 张 三 和 人 物 实 
体 李 四 的 天 系 是 夫妻 。 


ÆR: 23, 职业 : 演员 


夫妻 关系 
登记 时 间 : 2018 年 8 月 
有 无 子女 :无 


图 7-2 ”知识 图 谱 举 例 


属性 : 知识 图 谱 中 的 实体 和 关系 都 可 以 有 各 自 的 属性 。 比 如 图 7-2 中 ， 人 物 实体 的 属性 有 年 龄 和 职业 ( 张 三 ， 年 龄 : 23， 职 
业 : 演员 ; 李 四 ， 年 龄 : 22， 职 业 : 歌手 ) 。 关 系 的 属性 有 (夫妻 关系 ， 登 记 时 间 : 2018 年 8 月 ， 有 无 子女 : 无 ) 。 


语义 类 和 内 容 也 是 知识 图 谱 中 可 选择 的 要 素 。 
语义 类 : 具有 同 种 特性 的 实体 构成 的 集合 ， 如 和 类、 动物 、 国 家 、 植 物 等 。 
AS: 通常 是 实体 和 语义 类 的 名 字 、 描 述 、 解 释 等 ， 变 现形 式 一 般 有 文本 、 图 像 、 音 视频 等 。 


ARBs: 把 实体 间 的 关系 表示 成 一 种 多 关系 图 谱 ， 形 成 一 种 知识 型 的 语义 网 络 。 图 谱 中 的 节点 用 来 表示 实体 ， 而 实体 间 的 
天 系 用 图 谱 中 的 边 来 表示 。 


人 的 知识 结构 体系 是 丰富 的 ， 但 是 一 个 比较 重要 的 事实 是 ， 束 储存 知识 本 身 而 言 ， 人 的 记忆 力 没有 计算 机 存储 那样 庞大 ， 但 
是 对 于 文 草 和 整 句 话 的 语义 关系 理解 上 ， 人 类 还 是 占有 较 大 的 优势 的 。 模 仿 人 类 对 知识 点 的 掌握 习惯 ,知识 图 谱 大 致 分 为 
Concept Graph 常识 知识 图 谱 和 Encyclopedia Knowledge Graph 百科 全 书 知 识 图 谱 。 所 以 知识 图 谱 可 以 总 结 为 实体 的 关系 图 


Ss 
Ta o 


SAARES: 以 人 和 物 为 实体 中 心 的 天 系 图 谱 ， 反 应 人 和 | 物 之 间 的 关系 的 天 系 网 络 。 如 图 7-2 中 两 个 人 物 之 间 通 过 夫妻 天 
系 联系 起 来 的 网 络 。 


事件 知识 图 谐 : 事件 区 别 以 人 和 物 为 实体 的 天 系 图 谱 ， 每 个 不 同 的 事件 都 用 证 点 表示 ， 事 件 和 事件 之 间 通 过 逻辑 关系 相连 。 
比如 因果 关系 、 并 列 关 系 、 时 序 关系 ， 等 。 


7.2 FUREY 


7.2.1 知识 抽取 -命名 实体 识别 


命名 实体 识别 (Named Entity Recognition, NER) 是 目 然 语 言 处 理 中 的 一 项 基本 任务 ， 其 万 法 是 给 出 一 段 输入 文本 ， 利 
用 序列 标注 等 方法 ， 抽 取出 文本 中 的 实体 。 命 名 实体 一 般 措 的 是 文本 中 代表 具体 指向 意义 的 实体 ,一般人 名 、 机 构 组 织 名 、 地 址 
名 、 时 间 日 期 、 金 额 等 都 属于 可 以 用 来 识别 的 实体 。 


NER 一 般 被 看 作 分 词 中 的 一 部 分 ， 属 于 未 登录 词 识别 的 一 种 ， 文 本 中 有 很 多 各 陈 各 样 的 NER 词 汇 ， 一 毕 词 还 是 在 特定 场景 
出 现 的 词汇 ， 比 如 电影 名 称 、 歌 曲名 、 和 餐馆 名 称 等 。 可 以 把 NER 词 汇 都 全 部 准确 识别 是 件 难度 很 大 的 事情 ， 而 且 也 影响 到 分 词 最 
后 的 效果 。 


NER 是 NLP 领 域 普遍 研究 的 一 个 课题 ， 一 般 来 况 ， 对 一 些 简 单 的 实体 : 货币 金额 、 时 间 、URL 链 接 等 ， 都 用 总 结 好 的 正则 式 
来 匹配 并 识别 。 但 是 在 另外 的 一 些 实体 上 ， 例 如 : 中 文人 名 、 西 欧 人 名 、 日 韩 姓名 、 地 名 、 机 构 名 称 等 ， 融 需要 用 到 机 器 学 习 、 
深度 学 习 的 方法 训练 模型 的 万 法 来 进行 识别 。 


在 识别 命名 实体 上 ，NLP 走 过 了 一 条 很 长 路 ， 但 是 在 近 几 年 ， 随 着 迁移 学 习 和 预 训 练 的 流行 ，NER 识 别 的 友 展 的 速度 在 加 
快 。 早 期 人 们 利用 基于 规则 和 字典 的 方法 识别 NER， 但 手段 比较 粗暴 ， 泛 化 性 太 差 。 很 快 ， 传 统 的 机 器 学 习 利用 了 HMM、 
MEMM、CRF 算 法 模型 代替 了 早期 字典 和 规则 来 识别 NER。 当 深度 学 习 发 展 起 来 并 广泛 的 运用 于 自然 语言 处 理 之 后 ， 我 们 利用 
RNN-CRF 或 者 CNN-CRF 的 深度 学 习 模 型 来 识别 NER。 近 期 注意 力 模型 和 迁移 学 习 在 NLP 的 最 基本 的 几 个 任务 上 都 有 比较 大 的 
提升 ， 利 用 Transformer、Elmo、BERT 模 型 提高 NER 识 别 率 成 为 我 们 的 首选 ， 过 程 如 图 7-3 所 示 。 


基于 规则 和 词 
HLA SES YAGI 


卷 积 网 络 -条 件 随机 场 
循环 网 络 -条 件 随机 声 


Transformer, 
Elmo, BERT 


| 件 随机 场 


图 7-3 ”命名 实体 识别 在 NLP 发 展 中 的 历史 步骤 


7.2 AUIRAHAX 


7.2.1 知识 抽取 -命名 实体 识别 


命名 实体 识别 (Named Entity Recognition, NER) 是 目 然 语 言 处 理 中 的 一 项 基本 任务 ， 其 万 法 是 给 出 一 段 输入 文本 ， 利 
用 序列 标注 等 方法 ， 抽 取出 文本 中 的 实体 。 命 名 实体 一 般 措 的 是 文本 中 代表 具体 指向 意义 的 实体 ,一般人 名 、 机 构 组 织 名 、 地 址 
名 、 时 间 日 期 、 金 额 等 都 属于 可 以 用 来 识别 的 实体 。 


NER 一 般 被 看 作 分 词 中 的 一 部 分 ， 属 于 未 登录 词 识别 的 一 种 ， 文 本 中 有 很 多 各 陈 各 样 的 NER 词 汇 ， 一 尝 词 还 是 在 特定 场景 下 
出 现 的 词汇 ， 比 如 电影 名 称 、 歌 曲名 、 和 餐馆 名 称 等 。 可 以 把 NER 词 汇 都 全 部 准确 识别 是 件 难度 很 大 的 事情 ， 而 且 也 影响 到 分 词 最 
后 的 效果 。 


NER 是 NLP 领 域 普遍 研究 的 一 个 课题 ， 一 般 来 咬 ， 对 一 些 简 单 的 实体 : 货币 金额 、 时 间 、URL 链 接 等 ， 都 用 总 结 好 的 正则 式 
来 匹配 并 识别 。 但 是 在 另外 的 一 些 实体 上 ,例如 : 中 文人 名 、 西 欧 人 名 、 日 韩 姓名 、 地 名 、 机 构 名 称 等 ， 融 需要 用 到 机 器 学 习 、 
深度 学 习 的 方法 训练 模型 的 万 法 来 进行 识别 。 


在 识别 命名 实体 上 ，NLP 走 过 了 一 条 很 长 路 ,但 是 在 近 几 年 ， 随 着 迁移 学 习 和 预 训 | 练 的 流行 ，NER 识 别 的 友 展 的 速度 在 加 
快 。 早 期 人 们 利用 基于 规则 和 字典 的 方法 识别 NER， 但 手段 比较 粗暴 ， 泛 化 性 大 差 。 很 快 ， 传 统 的 机 器 学 习 利 用 了 HMM、 
MEMM、CRF 算 法 模型 代替 了 早期 字典 和 规则 来 识别 NER。 当 深度 学 习 友 展 起 来 并 广泛 的 运用 于 目 然 语 言 处 理 之 后 ， 我 们 利用 
RNN-CRF 或 者 CNN-CRF 的 深度 学 习 模 型 来 识别 NER。 近 期 注意 力 模 型 和 迁移 学 习 在 NLP 的 最 基本 的 几 个 任务 上 都 有 比较 大 的 
提升 ， 利 用 Transformer、EImo、BERT 模 型 提高 NER 识 别 率 成 为 我 们 的 首选 ， 过 程 如 图 7-3 所 示 。 


基于 规则 和 词 ， 
典 的 实体 识别 


件 随机 场 


图 7-3 


7.2.2 利用 CRF 模 型 识别 NER 


NER 在 目 然 语言 处 理 中 的 做 法 和 中 文 分 词 ， 
训练 ， 得 到 句子 中 每 个 位 置 和 标注 的 对 应 天 系 。 


隐 马 模型 条 


卷 积 网 络 -条 件 随机 场 
循环 网 络 -条 件 随机 声 


Transformer, 
Elmo, BERT 


命名 实体 识别 在 NLP 发 展 中 的 历史 步骤 


词性 标注 的 类 似 ， 都 是 把 问题 转换 成 相应 的 序列 标注 问题 ， 并 通过 大 规模 语 料 的 
条 件 随 机 场 (Conditional Random Field，CRF) 是 一 种 判别 式 模 型 。 


我 们 最 常用 到 的 是 CRF+ + 工具 ， 用 其 进行 序列 标注 模型 训练 。 
算法 流程 : 

1) 训练 文本 预 处 理 

a. 文 本 清理 : 清理 文本 中 的 乱 字 符 ， 统 一 文本 格式 。 
b. 文 本 分 词 ， 对 待 训练 文本 进行 中 文 分 词 。 

c. 确 定 序列 标注 集合 ， 对 训练 文本 进行 标注 。 
2) 训练 CRF 模 型 

a. 制 作 CRF 特 征 模版 。 

b. 输 入 标注 好 的 预 处 理 训练 文本 。 


c. 使 用 CRF+ + 工具 进行 训练 ， 生 成 CRF model, 


CRF 模 型 适用 于 序列 标注 模型 的 训练 是 因为 ，CRF 训 | 练 的 序列 标注 的 目标 浮 数 除了 包含 输入 的 转 仿 特征 孙 数 外 ， 还 包含 了 各 
个 标签 乙 间 的 转移 特征 函数 。CRF 模 型 通过 语 料 来 训练 模型 ， 利 用 随机 梯度 下 降 优 化 未 类 参数 的 值 。 


在 NER 的 预测 阶段 ， 实 际 上 是 求 序列 标注 的 概率 最 大 问题 。 既 用 训练 模型 为 输入 序列 做 标注 ， 得 到 输出 序列 标注 ， 然 后 利用 
维特 比 算法 解码 ， 使 用 动态 规划 求 出 概率 最 大 的 也 束 是 最 优 的 标签 序列 。 


假设 给 出 一 段 广 本， 开头 为 : 谁 是 北京 中 赫 国安 足球 俱乐部 的 主教 练 。 

1) 预 处 理 阶段 (包括 分 词 ) : 谁 是 北京 Pi 国安 足球 俱乐部 的 ”主教 练 
2) 使 用 BMESO 作 为 序列 标注 的 标准 : 

B 表 示 实 体 的 开头 ，M 表 示 实 体 的 中 间 ，E 表 示 实 体 的 结尾 ，S 表 示 单 一 实体 ，O 表 示 非 实体 部 分 。 
那么 预 处 理 的 文本 经 过 标注 表示 为 : 

谁 /D 是 /O 北京/B 中 赫 /M 国安 /M 足球 /M 俱乐部 /EE 的 /O 主教 练 /O 
3) 模版 一 般 分 Unigram 标 注 和 Bigram 标 注 

Unigram Template 

U00: %x [-2, 0] 

U01: %x [-1, 0] 

U02: %x [0, 0] 

U03: %x [1, 0] 

U04: %x [2, 0] 

Uos: 人 | 了 0] 7 Yox 10% 0] 

U06: %x [-1, 0] /%x L0, 0] /%x [1, 0] 

U07: %x [0, 0] /%x [1, 0] /%x |2, 0] 

U08: %x [-1, 0] /%x [0, 0] 

U09: %x [0, 0] /%x [1, 0] 

LA “Pigs” ASBToken, PERRA Tokeni TF : 

U00: %x [-2, 0] Dg 

U01: %x [-1, 0] DX 

U02: %x [0, 0] Pak 

U03: %x [1, 0] DHA 


U04: %x [2, 0] DAAR 


U05: %x [-2, 0] /%x [-1, 0] /%x [0, 0] 咏 谁 /是 /中 赫 
U06: %x [-1, 0] /%x [0, 0] /%x [1, 0] 哆 是 /中 赫 / 国 安 
UOT: %x [0, 0] /%x [1, 0] /%x [2, 0] DPH HRM 
U08: %x [-1, 0] /%x [0, 0] D/P th 

U09: %x [0, 0] /%x [1, 0] D+ #/ B> 


Unigram 每 个 模版 生成 一 组 状态 特征 图 数 ， 一 共有 LN 个 。 其 中 [是 标 淮 个 数 ， 这 里 为 5? 个 。N 是 在 训练 集合 上 展开 后 生成 的 
唯一 样本 数 ， 在 训练 集合 第 一 句 话 中 是 9 个 Token， 所 以 一 共有 5*9=45 个 锐 数 。 


比如 : U02: %x [0, 0] ， 生 成 下 面 函 数 : 

func1=if (output=B and feature=U02: " 谁 ") return 1 else return 0 
func2=if (output=M and feature=U02: " 谁 ") return 1 else return 0 
func3=if (output=E and feature=U02: " 谁 ") return 1 else return 0 
func4=if (output=S and feature=U02: "ifé") return 1 else return 0 
func5=if (output=O and feature=U02: "if—") return 1 else return 0 
func6=if (output=B and feature=U02: "是 ") return 1 else return 0 
func7=if (output=M and feature=U02: "是 ") return 1 else return 0 
func8=if (output=E and feature=U02: "是 ") return 1 else return 0 
func9=if (output=S and feature=U02: "是 ") return 1 else return 0 


func10=if (output=O and feature=U02: "是 ") return 1 else return 0 


func41=if (output=B and feature=U02: “主教 练 ") return 1 else return 0 
func42=if (output=M and feature=U02: “" 主 教练") return 1 else return 0 
func43=if (output=E and feature=U02: “" 主 教练 ") return 1 else return 0 
func44=if (output=S and feature=U02:" 主 教练 ") return 1 else return 0 
func45=if (output=O and feature=U02: “主教 练 ") return 1 else return 0 
KE RSZAT IIA, S27 AACE. 

Bigram Template: 


Bigram 所 生成 的 函数 还 需要 考虑 前 一 个 时 刻 的 标签 。 比 如 func (S , S) ， 其 中 ”表示 的 是 t-1 时 刻 的 状态 ，s 是 此 刻 的 
状态 ， 联 合 起 来 组 成 了 Bigram 的 feature。 学 过 HM M 模 型 做 序列 标注 的 读者 可 能 会 友 党 ，Bigram 特 征 模 版 起 到 了 HMM 模 型 中 


转移 概率 的 作用 ， 其 在 不 同 的 状态 间 建 立 起 了 转移 链接 。 在 Bigram 特 征 模板 里 面 简单 地 写 一 个 B， 默 认 表 示 为 
func (S , S). 


URRAS 表示 前 一 个 状态 ，9% 表 示 当 前 的 状态 ， 则 可 能 得 到 如 下 的 Bigram 特 征 国 数 。 
funcl=if (S' =B and S=B) return 1 else return 0 
func2=if (9 =B and S=M) return 1 else return 0 
func3=if (S' =B and S=E) return 1 else return 0 
func4=if (S' =B and S=S) return 1 else return 0 


func5=if (S' =B and S=O) return 1 else return 0 


Func21=if (S =O and S=B) return 1 else return 0 
func22=if (S' =O and S=M) return 1 else return 0 
func23=if (9” =O and S=E) return 1 else return 0 
func24=if (S' =O and S=S) return 1 else return 0 
func25=if (S' =O and S=O) return 1 else return 0 


我 们 把 了 预 处 理 和 标记 好 的 文本 作为 输入 ， 又 有 了 特征 模版 作为 训练 模型 的 规则 ， 就 可 以 得 到 基于 CRF 模 型 训 | 练 的 序列 标注 
NER 模 型 了 。 


7.2.3 ”利用 BiLSTM+CRF 模 型 进行 命名 实体 识 另 


目 从 深度 学 习 诞 生 后 ， 学 者 们 残 开始 考虑 如 何 利用 深度 学 习 的 目 动 提取 特征 的 功能 ， 来 更 加 有 效 的 提取 特征 ， 以 此 提高 NER 
模型 识别 的 准确 率 和 召回 率 。 但 是 深度 学 习 预 测 出 来 的 标签 有 可 能 是 无 效 的 ， 因 为 深度 学 习 是 对 每 个 Token 进 行 单独 的 标签 预 
测 ， 没 有 更 多 的 上 下 文 规律 ， 模 型 需要 CRF 提 供 更 多 的 标签 之 间 的 转移 概率 ， 即 是 我 们 需要 得 到 更 多 的 上 下 文 信 息 。 


所 以 在 一 段 时 间 内 DL-CRF 变 成 了 序列 标注 的 标 配 ， 这 里 我 们 用 BiLSTM-CRF 模 型 作 举 例 说 明 。 
1) 假设 预 处 理 的 文本 经 过 EMBOS 标 注 表 示 为 : 

谁 /O 是 /O 中 华 /B 人 民 /M 共 和 国 /M 中 央 /M 军 委 /EE 的 /O 主 席 /O 

2) 标注 句子 向 量化 转换 后 得 到 

x= (xj, x2; =, xp) 

x 是 文本 的 转换 后 的 词 向 量 集合 ， 其 中 每 个 x 表示 每 个 One-Hot 向 量 ， 维 数 是 文本 字典 的 大 小 。 


3) 模型 在 Word Embedding 层 把 x 表示 的 One-Hot 向 量 转 换 成 对 应 的 中 文 分 词 的 词 向 量 Word Embedding. 


4) Word Embedding 层 后 面 接着 BiLSTM Layer 的 双向 LSTM 层 。 输 入 为 Word Embedding 序 HWW= (w1, wo, 
., Wn) ， 得 到 Forward LSTM 的 Hidden Layer 序 列 是 <h., h,, … h,), Backward LSTM 的 Hidden layer 序 列 是 
h=(h, h, =, h,)， 然 后 按照 位 置 拼接 这 两 部 分 得 至 


前 ， 可 以 设置 Dropout 的 数量 来 防止 过 拟 合 。 


= 


h=(h,, h,)。 假 设 Hidden Layer 是 m 维 向 量 ， 则 有 heRn m。 在 进入 下 一 层 之 


5) 下 一 层 是 一 个 线性 层 ， 负 责 把 Hidden Layer 的 m 维 向 量 映射 到 k 维 的 标签 集合 上 ， 得 到 自动 提取 的 句子 特征 
P= (p1，p2，...，pn) ERnk。 每 一 维 可 以 看 作 是 每 个 词 对 不 同 标签 的 打分 。 


6) 最 后 一 层 是 CRF Layer， 因 为 需要 对 整 句 话 进行 计算 ， 所 以 在 句子 前 加 一 个 起 始 状态 ， 在 句子 最 后 加 一 个 结束 状态 。 矩 
BEO k) (k+2) 代表 了 不 同 的 标签 之 间 的 转移 矩阵 ， 多 出 的 2 是 起 始 状态 和 结束 状态 。 


7) 假设 得 到 的 标签 序列 为 y= 〈(y1，y2，…，yn) ，xX 是 句子 的 词 向 量 表示 ， 则 句子 对 应 标签 序列 y 的 打分 可 以 记 为 两 个 音 
分 。 第 一 部 分 可 以 看 成 自动 提取 句子 的 特征 对 应 标签 的 得 分 由 BiLSTM 决 定 ， 第 二 部 分 可 以 看 成 从 一 个 标签 转移 到 另外 一 个 标签 
的 分 数 由 CRF 决 定 。 两 部 分 相 加 得 到 最 后 的 得 分 : 


n+l 


r 
score ( xX ’ y) 一 > Py, t >, 0, BE 
I = ] I 一 ] 


8) 最 后 通过 Softmax 得 到 归 一 化 概率 


exp( score( x, y)) 
P(4 ‘fan. ¢ .. SR 
Cy x) > yexp(score(x, Y) ) 


FEHR ATUL ARRA, VAERE AAR 
logP (y*|x) =score (x, y*) -log (Liexp (score (x, Y) ) ) 


9) 在 模型 预测 的 时 候 ， 因 为 它 是 一 个 动态 规划 的 问题 ， 所 以 利用 Viterbi 解 码 算法 来 求解 


= 


y =arg max score(x, Y) 


最 后 ，BIiLSTM-CRF 模 型 做 命名 实体 识别 如 图 7-4 所 示 。 
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图 7-4 ”利用 BiLSTM-CRF 模 型 做 命名 实体 识别 


7.3 ”知识 抽取 -实体 关系 抽取 : Relation Extraction 


言 忌 抽 取 是 从 大 规模 的 语 料 或 是 半 结 构 化 的 目 然 文本 中 提取 出 来 结构 化 信息 。 一 般 来 说 信息 抽取 分 为 以 下 几 个 步骤 如 图 7-5 
表示 出 来 。 


天 系 抽取 束 是 识别 出 实体 并 抽取 实体 之 间 的 语义 关系 。 如 果 关 系 类 型 是 已 知 的 ， 那 这 种 抽取 的 方法 就 被 称 为 封闭 式 关 系 抽 
取 。 而 如 果 关 系 类 型 是 未 燥 的 ， 只 是 确定 了 实体 间 及 生 了 关系 ， 天 系 内 容 还 需要 友 现 ， 那 么 这 种 抽取 称 为 开放 陈 关 系 抽 取 。 一 般 
我 们 面 对 的 都 是 2 个 不 同 的 实体 间 的 关系 ， 称 为 二 元 天 系 抽取 。 但 是 还 是 有 3 个 ， 或 3 个 以 上 实体 关系 的 句子 摘 述 ， 我 们 称 这 种 为 
多 元 实体 关系 抽取 。 


JR it LAS Raw lext 


人 名 于 分割 Sentence Segmentation 


问 性 标注 
Part of Speech 


Relation Detection 


图 7-5 ”信息 抽取 步骤 的 流程 图 


实体 识别 在 前 面 已 经 有 过 介绍 ， 下 面 来 看 看 如 何 进 行 实 体 关 系 抽取 。 


例如 : 岳 云 鹏 的 最 佳 拍档 融 是 天 越 了 ， 他 们 一 起 合作 ， 演 出 了 很 多 场 相声 。 


我 们 用 人 工 的 万 法 可 以 列 出 实体 和 实体 | 间 的 关系。 
-Entity1: AM Entity2: 孙 越 Relation 拍 档 
.Entity1: AMSEntity2: 和 孙 越 Relation 合 作 
- Entity]: 4M Entity2: 相声 Relation 演 出 


- Entity]: 孙 越 Entity2: 相声 Relation 演 出 


实体 天 系 抽 取 的 方法 有 很 多 种 ， 首 移 介 绍 的 是 基于 规则 的 关系 抽取 ， 这 部 分 的 天 系 抽取 一 上 


1. 基 于 规则 的 模式 匹配 和 关系 抽取 


内 容 : 周杰伦 演出 了 头 文字 D 


“ 规则 : [LAZ] 演出 了 [影视 名 | 


“ 新 的 内 容 : 刘德华 演出 了 神 雕 侠 侣 


` 内 容 : 熊猫 是 中 国 的 国宝 


` 规则 : [动物 名 | 植物 名 | 物品 名 ] 是 | 国家 」 的 国宝 


HOAR: 蒙 娜 丽 莎 是 意大利 的 国宝 


有 & 是 靠 人 工 总 结 的 模式 进行 的 。 


实体 天 系 抽 取 (Relation Extraction, RE) 和 实体 识别 (Name Entity Recognition, NER) 都 是 从 语 料 中 将 非 结构 化 的 数 
据 解 析 成 为 结构 化 的 数据 加 以 存储 和 利用 的 一 种 方法 。 在 学 术 界 ， 单 纯 的 天 系 抽 取 任 务 和 基于 远程 监督 的 天 系 抽 取 任 务 是 采取 比 


较 多 的 两 种 万 法 。 


2. 基 于 监督 学 习 的 方法 (Supervised Method) 


在 这 里 ， 把 实体 关系 转化 成 高 维 空间 的 特征 向 量 ， 把 实体 配对 的 语义 关系 转换 成 多 分 类 问题 ， 其 中 每 一 种 关系 都 被 看 成 是 一 
个 类 别 。 然 后 通过 对 已 标注 数据 进行 训练 得 到 分 类 器 的 万 式 .来 解决 这 个 问题 ， 关 系 如 图 7-6 所 示 。 


Feature 
Extraction 


NO Lf fof 


(POS. Parse trees) K(x, y) 


图 7-6 FREF J He oD KE UIE 
基于 监督 学 习 关 系 抽取 步骤 : 
1) 实体 特征 构建 
a. 命 名 实体 识别 构建 的 特征 : 定义 涉及 的 所 有 命名 实体 ， 把 识别 的 命名 实体 做 特征 。 
b. 特 征 词 构成 的 特征 : 一 个 命名 实体 前 面 的 特征 词 ， 后 面 的 特征 词 ， 组 成 命名 实体 的 特征 词 。 
2) 实体 关系 特征 构建 
a. 定 义 需 要 抽取 的 实体 天 系 。 
b. 标 注 训练 中 的 实体 关系 。 
c. 通 过 依存 句法 分 析 器 获得 句子 的 句法 解析 结 
3) 在 标注 好 的 训练 集合 上 训练 得 到 分 类 器 
4) 对 待 标识 文本 进行 关系 预测 
a. 对 待 标识 文本 ,识别 是 否 有 涉及 的 命名 实体 。 
b. 判 断 两 个 命名 实体 是 否 相 天。 
c. 对 相关 的 命名 实体 进行 文本 分 类 ， 得 到 关系 类 别 。 


这 里 使 用 SemEval-2010 Task#8 来 说明 (Multi-Way Classification of Semantic Relations Between Pairs of 


Nominals) : 


任务 摘 述 : 给 出 一 句 话 并 且 标 注 出 句子 中 的 两 个 实体 ， 并 从 提供 的 9 组 关系 中 选择 一 个 最 恰当 的 关系 来 接 述 句子 中 两 个 实体 
的 关系 。 


- Relation 1 (Cause-Effect: RRA) 。 
- Relation 2 (Instrument-Agency: 表现 状态 和 媒介 的 关系 ) o 
- Relation 3 (Product-Producer: 生产 与 被 生产 的 关系 ) © 


- Relation 4 (Content-Container: 物体 与 容器 的 关系 ) 。 


- Relation 5 (Entity-Otipgin: 实体 -起 源 ) 。 

- Relation 6 (Entity-Destination: 实体 与 终点 的 关系 ) 。 
- Relation 7 (Component-Whole: 部 分 与 整体 的 关系 ) 。 
- Relation 8 (Member-Collection: 元 素 与 集合 的 关系 ) 。 


- Relation 9 (Message-Topic: 条 款 与 主题 的 关系 ) o 


3. 基 于 种 子 的 司 友 式 算 法 (Seed-Based or Bootstrapping Approach) 


在 天 系 提取 中 常会 遇 到 没有 足 量 的 标注 语 料 的 问题 。 玲 于 这 种 常见 的 情况 ， 出 现 了 基于 种 子 的 局 友 式 算法 ， 这 种 方法 为 各 种 
不 同 的 天 系 标注 少量 的 “Seed” 种子 实体 和 关系。 把 这 些 实体 天 系 的 语 料 作为 训练 集合 ， 抽 取出 可 以 表达 这 些 天 系 的 规则 模版 或 
者 模式 (Pattern) ， 友 现 更 多 的 实体 天 系 。 然 后 反复 迭代 ， 得 到 最 后 的 结果 。 这 种 迭代 的 过 程 叉 叫 作 “滚雪球 ” (Snow 
Ball) 。 


举例 ， 给 出 实体 种 子 对 ， 并 归纳 实体 关系 的 Pattern.。 

(BFR (BEEE), (湖南 省 ) 湘潭 (B) ) 

毛 主席 老家 是 湖南 省 湘潭 县 福 老 家 是 Y 

毛泽东 出 生地 是 湖南 湘潭 之 出 生地 是 Y 

湘潭 是 毛泽东 小 时 候 生活 的 地 方 ->Y 是 X 小 时 候 生 活 的 地 方 

根据 实体 关系 的 Pattern 可 以 找到 更 多 的 实体 对 。 

X 老 家 是 Y- 刘 邦 老家 是 沛 丰 邑 中 阳 里 之 《刘邦 ， 沛 丰 昌 中 阳 里 ) 
X 老 家 是 Y 仿 孔子 老家 是 山东 曲阜 之 (FLF, URAR) 

反复 欠 代 找 出 实体 对 和 实体 关系 的 Pattern。 

曲阜 是 孔子 诞生 地 - 伪 X 是 Y 诞 生地 


山东 曲阜 孔子 故乡 仿 YX 故 乡 
4. 远 程 监督 学 习 (Distant Supervision) 


远程 监督 学 习 的 思想 是 ， 如 果 一 句 话 中 的 两 个 实体 构成 了 一 种 实体 关系 ， 那 么 其 他 大 多 数 句 子 里 面包 含 这 两 个 实体 的 大 都 体 
现 这 种 实体 关系 。 假 设 一 个 句子 包含 某 对 实体 ， 那 么 这 个 句子 应 该 缠 含 了 两 个 实体 间 的 关系 (Freebase 中 罗列 的 关系 之 一 ) , 
可 以 将 这 个 句子 作为 该 实体 对 所 对 应 天 系 的 训练 正 例 。 具 体 步 又 为 : 


对 每 个 天 系 中 的 每 一 对 元 组 ， 在 语料库 中 找到 同时 包含 这 两 个 实体 的 句子 。 
1) 抽取 高 频 的 特征 (语法 分 析 、 单 词 等 ) 。 


2) 用 提取 的 模式 训练 有 监督 的 分 类 模型 。 


这 种 方法 的 最 大 缺陷 是 假设 过 于 完美 ， 实 际 例 子 中 会 引起 很 多 噪音 数据 ， 遇 到 包含 两 个 Entity 的 句子 ， 不 一 定 瓯 在 是 摘 述 对 
应 的 Relation。 


实体 属性 抽取 : 知识 属性 的 抽取 是 我 们 利用 规则 或 是 算法 ， 目 动 的 抽取 结构 化 的 数据 从 而 得 到 实体 的 属性 信息 。 比 如 实体 是 
一 个 人 物 ， 我 们 则 根据 网 络 公 开 信 息 到 他 的 国籍 ， 生 日 ， 出 生地 ， 经 历 等 等 信息 。 一 般 有 以 下 几 种 方法 来 抽取 实体 属性 。 


1) 将 实体 的 属性 视 作 实体 与 属性 值 之 间 的 一 种 名 词性 天 系 ， 将 属性 抽取 任务 转化 为 天 系 抽 取 任 务 。 
2) 基于 规则 和 局 友 陈 算法 ， 抽 取 结 构 化 数据 。 


3) 基于 百科 类 网 站 的 半 结 构 化 数据 ， 通 过 目 动 抽取 生成 训练 语 料 ， 用 于 训练 实体 属性 标注 模型 ， 然 后 将 其 应 用 于 对 非 结构 
化 数据 的 实体 属性 抽取 。 


4) 采用 数据 挖掘 的 方法 直接 从 文本 中 挖掘 实体 属性 和 属性 值 之 间 的 关系 模式 ， 据 此 实现 对 属性 名 和 属性 值 在 文本 中 的 定 


一 一 


位 。 


74 ”天 识 图 应 的 构建 


对 于 知识 图 谱 的 应 用 来 说 ， 知 识 图 谱 的 构建 是 一 切 相关 应 用 的 基础 ， 我 们 需要 找到 包 合 需要 实体 的 数据 源 ， 并 把 这 些 实体 和 
实体 天 系 及 属性 从 数据 源 中 抽取 出 来 。 爬 虫 是 一 个 很 好 的 抓 取 数据 的 工具 ， 因 为 这 举人 在 网 络 上 公开 的 非 结构 化 的 数据 大 多 数 是 以 
网 页 的 形式 存在 于 互联 网 的 各 式 各 样 的 文本 信息 当中 ， 其 中 维基 百科 数据 、 百 度 百 科 数 据 、 各 个 新 闻 网 站 的 分 类 新 闻 数 据 ， 都 是 
ALARA CH. 
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实体 识别 、 关 系 抽取 、 实 体 统一 、 指 代 消 解 等 目 然 语言 处 理 的 技术 来 进行 实体 提取 、 关 系 提取 和 属性 提取 。 在 前 面 的 内 容 里 面 ， 
我 们 已 经 详细 的 举例 解释 了 命名 实体 识别 ， 关 系 抽取 ， 所 以 这 里 来 说 一 下 实体 统一 。 


1. 实 体 统一 


实体 统一 从 字面 上 理解 是 将 不 同 的 形式 表现 的 是 同一 种 实体 ， 所 以 我 们 要 把 它们 进行 合并 。 比 如 “北大 ”和 “北京 大 学 ”从 
字面 上 看 是 个 一样 的 ， 但 是 它们 在 表达 上 确 是 指 | 同 了 同一 个 实体 北京 大 学 ， 一 个 大 学 的 校 名 。 为 了 减少 实体 的 种 类 和 降低 图 谱 的 
黎 跑 程度 ， 需 要 做 合并 来 实体 统一 。 另 外 ,代词 在 文章 中 指 的 也 是 一 个 实体 ， 而 为 了 明确 地 表明 这 些 实体 ， 我 们 需要 用 实体 本 身 
蔡 换 措 向 他 们 的 代词 ， 这 个 过 程 称 之 为 指 代 消 解 。 


2. 仔 储 方式 
一 般 知 识 图 谱 有 两 种 存储 的 形式 。 


一 个 是 基于 Resource Description Framework 和 资源 摘 述 框架 RDF 的 存 储 ， 另 外 一 个 是 基于 图 数据 库 的 仓储 。RDF 使 用 XML 
语法 和 RDF Schema (RDFS) 来 将 元 数据 描述 成 为 数据 模型 。 一 个 RDF 文 件 包含 多 个 资源 描述 ， 而 一 个 资源 描述 是 由 多 个 语句 
构成 ， 一 个 语句 是 由 资源 、 属 性 类 型 、 属 性 值 构成 的 三 元 组 ， 表 示 资 源 所 具有 的 属性 。 资 源 摘 述 中 的 语句 可 以 对 应 于 目 然 语 言 的 
语句 ， 其 中 资源 对 应 于 目 然 语言 中 的 主语 ， 属 性 类 型 对 应 于 谓语 ， 属 性 值 对 应 于 宾语 ， 在 RDF 术 语 中 称 其 分 别 为 主语 、 谓 语 、 宾 


ie: 


在 之 前 的 认识 中 ， 我 们 习惯 用 关系 型 的 数据 库 ， 而 不 是 图 数据 库 。 那 么 知识 图 谱 为 何 会 选择 使 用 图 数据 库 呢 ? 


图 数据 库 相 比 关系 性 数据 库 更 加 有 利 的 是 : 如 果 知 识 图 谱 关 系 变 得 很 复杂 ， 特 别 是 有 很 多 的 2 度 ，3 度 天 联 查 询 时 ， 图 数据 
库 会 比 天 系 型 数据 库 天 联 租 询 的 效率 上 高 出 几 万 们 。 


3. 知 识 图 谱 的 逻辑 染 构 : 数据 层 与 模式 层 
数据 层 ， 模 式 层 把 知识 图 谱 分 为 不 同 的 两 个 层次 。 


模式 层 : 在 数据 层 之 上 ， 是 知识 图 谱 的 核心 ， 存 储 经 过 提炼 的 知识 ， 通 剃 通过 本 体 库 来 管 理 这 一 层 这 一 层 (本 体 库 可 以 理解 
为 面向 对 象 里 的 “类 ”这 样 一 个 概念 ， 本 体 库 束 储存 着 知识 图 谱 的 类 ) 。 


数据 层 : 存储 真实 的 数据 。 例 如 : 

模式 层 : 实体 -关系 -实体 ， 实 体 -属性 -性 值 

数据 层 : 比尔 兰 次 -妻子 - 梅 琳 达 : 兰 次 ， 比 尔 善 次 -总 裁 - 微 软 
4. 知 识 图 谱 的 拉 术 架构 


如 图 7-7 所 示 ， 构 建 知 识 图 谱 是 不 断 完 善 和 迹 代 的 过 程 ， 而 每 一 个 迭代 又 分 成 3 部 分 : 信息 的 抽取 、 知 识 融 合 和 知识 的 加 


言 息 抽 取 : 可 以 解释 为 ， 把 已 经 成 型 的 公开 的 结构 资源 纳入 到 我 们 的 知识 图 谱 ， 或 者 通过 息 虫 候 取 非 结构 和 半 结 构 的 资源 。 
在 拒 取 到 资源 后 ， 我 们 利用 命名 实体 识别 、 关 系 提取 来 进行 实体 提取 、 属 性 提取 和 关系 提取 。 


SS 
第 三 方 知识 库 
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图 7-7 ”知识 图 谱 的 技术 架构 


知识 融合 : 在 获得 或 者 更 新 知识 后 ， 需 要 利用 实体 统一 和 指 代 消解 来 消除 矛盾 和 层 异 。 
知识 加 工 : 在 融合 新 的 知识 后 ， 需 要 经 过 人 工 参 与 的 质量 评估 ， 才 能 把 有 质量 的 新 的 部 分 加 入 到 知识 库 中 。 
5. 本 体 构建 


本 体 (Ontology) 是 指 工 人 的 概念 集合 、 概 念 框 染 ,如 “人 ”““ 事 ”“ 物 ”等 。 


本 体 可 以 采用 人 工 编 辑 的 万 式 手 动 构建 (借助 本 体 编辑 软件 ) ， 也 可 以 以 数据 驱动 的 自动 化 方式 构建 本 体 。 因 为 人 工 万 式 工 
作 量 巨大 ， 且 很 难 找 到 符合 要 求 的 专家 ， 因 此 当前 主流 的 全 局 本 体 库 产品 ， 都 是 从 一 些 面 向 特定 领域 的 现 有 本 体 库 出 友 ， 及 用 目 
动 构建 扩 林 逐步 扩展 得 到 的 。 


目 动 化 本 体 构建 过 程 包 含 3 个 阶段 : 
1) 实体 并 列 天 系 相似 度 计算 。 

2) 实体 上 下 位 关系 抽取 。 

3) 本 体 的 生成 。 


比如 对 下 面 这 个 例子 ， 当 知识 图 谱 刚 得 到 “阿里 巴巴 。 “腾讯 ”“ 手 机 ”这 3 个 实体 的 时 候 ， 可 能 会 认为 它们 3 个 之 间 并 没 
有 什么 差别 ， 但 当 它 去 计算 三 个 实体 乙 间 的 相似 度 后 ， 融 会 友 现 ， 阿 里 巴巴 和 腾讯 之 间 可 能 更 相似 ， 和 手机 差别 更 大 一 些 。 


这 就 是 第 一 步 的 作用 ， 但 由 于 知识 图 谱 实 际 上 还 是 没有 一 个 上 下 层 的 概念 ， 它 还 不 知道 ， 阿 里 巴巴 和 手机 根本 束 不 隶属 于 一 
个 类 型 ， 从 而 无 法 比较 。 因 此 我 们 在 实体 上 下 位 关系 抽取 这 一 步 ， 融 需要 先 去 完成 这 样 的 工作 ， 从 而 生成 第 3 步 的 本 体 。 


当 3 步 结束 后 ， 这 个 知识 图 谱 束 会 明日 ，“ 阿 里 巴巴 和 腾讯 ， 其 实 都 是 公司 这 样 一 个 实体 下 的 细 分 实体 。 它 们 和 手机 并 不 是 


一 类 。 


6. 知 识 推 理 


在 我 们 完成 了 本 体 构建 这 一 步 之 后 ， 一 个 知识 图 谱 的 锥 形 便 已 经 搭建 好 了 。 但 可 能 在 这 个 时 候 ， 知 识 图 谱 之 间 大 多 数 关系 都 
是 残缺 的 ， 缺 失 值 非常 严重 ， 那 么 这 个 时 候 ， 我 们 殊 可 以 使 用 知识 推理 拉 术 ， 去 完成 进一步 的 知识 友 现 。 


我 们 可 以 友 现 : 如 果 人 A 是 B 的 配偶 ，B 是 C 的 主席 ，C 坐 藻 于 D， 那 么 我 们 束 可 以 认为 ， 人 A 生活 在 D 这 个 城市 。 


根据 这 一 条 规则 ， 我 们 可 以 去 挖掘 一 下 在 图 里 ， 是 不 是 还 有 其 他 的 Path 满 足 这 个 条 件 ， 可 以 将 AD 两 个 天 联 起 来 。 除 此 之 
外 ， 我 们 还 可 以 去 思考 ， 捉 联 里 有 一 环 是 B 是 C 的 主席 ， 那 么 B 是 C 的 CEO、B 是 C 的 COO， 是 不 是 也 可 以 作为 这 个 推理 策略 的 一 
环 呢 ? 


当然 知识 推理 的 对 象 也 并 不 局 限于 实体 间 的 天 系 ， 也 可 以 是 实体 的 属性 值 ， 本 体 的 概念 层次 关系 等 ， 比 如 : 
推理 属性 值 : 已 知 某 实体 的 生日 属性 ， 可 以 通过 推理 得 到 该 实体 的 年 龄 属性 。 
推理 概念 : CA (老虎 ， 科 ， 狐 科 ) 和 CaS, 8, RAB) 可 以 推出 (老虎 ， 目 ,食肉 目 ) 。 


这 一 块 的 算法 主要 可 以 分 为 3 大 类 ， 基 于 逻辑 的 推理 、 基 于 图 的 推理 和 基于 深度 学 习 的 推理 。 


7. 知 识 图 谱 的 应 用 


让 我 们 来 看 看 知识 图 谱 能 做 到 什么 ? 
` 智能 搜索 : 知识 图 谱 最 成 熟 的 一 个 场景 ， 自 动 给 出 搜索 结果 和 相关 人 物 构 建 人 物 关系 图 ， 查 看 更 多 维度 的 数据 。 


` 反 欺 诈 : 这 主要 有 两 部 分 原因 ， 一 个 是 反 欺 诈 的 数据 来 源 多 样 ， 结 构 化 和 非 结构 化 ， 二 是 不 少 欺 诈 案 件 会 涉及 复杂 的 关系 


. 不 一 致 性 验证 (类 似 交 又 验 证 ) : 关系 推理 。 
HR GEEK, KBR) o 
(BAD: 给 定 一 个 图 形 结 构 和 某 个 时 间 点 ， 从 中 去 发 现 一 些 异 常 点 《比如 有 异常 的 子 图 ) 。 


. 动态 分 析 : 分 析 其 结构 随时 间 变 化 的 趋势 。 (假设 短 时 间 内 知识 图 谱 结构 的 变化 不 会 太 大 ， 如 果 它 的 变化 很 大 ， 就 说 明 可 
能 存在 异常 ， 需 要 进一步 的 关注 。 会 涉及 时 序 分 析 技 术 和 图 相似 性 计算 技术 。) 


poe ”答案 生 成 与 多 轮 对 话 


对 话 的 响应 是 聊天 机 器 人 重要 功能 ， 此 外 对 话 啊 应 的 质量 和 能 够 处 理 对 话 的 轮 数 也 反映 了 聊天 机 器 人 的 智能 水 平 。 本 章 主要 
介绍 以 信息 检索 为 方式 进行 问题 和 答案 的 匹配 ， 同 时 也 介绍 了 对 话 系 统 中 多 轮 对 话 的 控制 与 生成 瓜 术 。 


8.1 ”预测 会 话 与 党 案 生成 


8.1.1 信息 检索 : 利用 搜 系 来 预 则 答案 


言 恩 检索 是 指 从 数据 集中 抽取 满足 用 户 信息 需求 的 段 洲 ， 是 问答 对 话 中 必 不 可 少 的 内 容 。 基 于 检索 的 问答 系统 是 规则 算法 中 
的 一 种 ， 规 则 模型 是 指 按照 某 种 规则 去 做 字符 串 匹 配 。 


基于 检 款 的 方法 需要 事先 穷 举 可 能 出 现 的 问答 数目 ， 通 过 问题 一 答案 的 匹配 算法 对 候选 答案 进行 打分 及 排序 ， 选 出 分 值 最 
高 的 回答 作为 最 终 回 复 。 问 题 一 答案 的 匹配 算法 可 以 是 简单 的 基于 规则 的 表达 式 匹配 ， 也 可 以 是 更 复杂 的 机 器 学 习 分 类 器 。 基 
于 检索 的 问答 系统 流程 如 图 8-1 所 示 。 


图 8-1 基于 检索 的 问答 系统 流程 图 


在 信息 检索 的 向 量 空间 模型 中 ， 用 户 提问 和 候选 回答 都 被 表示 为 特征 向 量 ， 其 中 特征 表示 在 文档 集中 出 现 的 词语 。 词 语 权重 
就 是 每 个 特征 的 值 ， 通 常 是 检索 词 在 文档 中 出 现 的 频率 等 因素 的 函数 。 由 于 提问 和 候选 回答 中 的 词 个 数 有 限 ， 可 以 利用 寻找 同 义 
词 等 方式 对 提问 和 回答 进行 扩展 和 改写 。 使 用 Word2Vec、Glove、Fasttext 等 词 向 量 表示 方法 可 以 获得 特征 向 量 ， 通 过 特征 向 
量 计算 词 之 间 的 相似 性 ， 可 以 获得 更 大 的 候选 集 。 


基于 检 款 的 模型 只 会 从 预 移 定 义 好 的 候选 集中 挑选 合适 的 回答 ， 并 不 会 产生 新 的 回答 。 因 此 ， 基 于 检索 的 模型 非 囊 依赖 于 数 
据 质 量 。 其 优势 在 于 最 终 回复 答案 可 控 且 能 够 调整 ， 然 而 对 语料库 中 未 出 现 的 新 问题 难以 作 管 。 在 对 话 基 本 上 限定 在 一 个 特定 领 
域 的 应 用 场景 中 ， 基 于 规则 的 对 话 模 型 无 论 是 准确 率 还 是 效率 都 比较 有 优势 。 


8.1.1 信息 检索 : 利用 搜 系 来 预 则 答案 


言 轧 检索 是 指 从 数据 集中 抽取 满足 用 户 信息 需求 的 段 洲 ， 是 问答 对 话 中 必 不 可 少 的 内 容 。 基 于 检索 的 问答 系统 是 规则 算法 中 
的 一 种 ， 规 则 模型 是 指 按照 某 种 规则 去 做 字符 串 匹 配 。 


基于 检索 的 方法 需要 事先 穷 举 可 能 出 现 的 问答 数目 ， 通 过 问题 一 答案 的 匹配 算法 对 候选 答案 进行 打分 及 排序 ， 选 出 分 值 最 
高 的 回答 作为 最 终 回 复 。 问 题 一 答案 的 匹配 算法 可 以 是 简单 的 基于 规则 的 表达 式 匹配 ， 也 可 以 是 更 复杂 的 机 器 学 习 分 类 器 。 基 
于 检索 的 问答 系统 流程 如 图 8-1 所 示 。 


问题 特征 


机 器 学 习 


分 类 器 


图 8-1 基于 检索 的 问答 系统 流程 图 


在 信息 检索 的 向 量 空间 模型 中 ， 用 户 提问 和 候选 回答 都 被 表示 为 特征 向 量 ， 其 中 特征 表示 在 文档 集中 出 现 的 词语 。 词 语 权重 
就 是 每 个 特征 的 值 ， 通 常 是 检索 词 在 文档 中 出 现 的 频率 等 因素 的 函数 。 由 于 提问 和 候选 回答 中 的 词 个 数 有 限 ， 可 以 利用 寻找 同 义 
词 等 方式 对 提问 和 回答 进行 扩展 和 改写 。 使 用 Word2Vec、Glove、Fasttext 等 词 向 量 表示 方法 可 以 获得 特征 向 量 ， 通 过 特征 向 
量 计算 词 之 间 的 相似 性 ， 可 以 获得 更 大 的 候选 集 。 


基于 检索 的 模型 只 会 从 预先 定义 好 的 候选 集中 挑选 合适 的 回答 ， 并 不 会 产生 新 的 回答 。 因 此 ， 基 于 检索 的 模型 非 囊 依赖 于 数 
据 质 量 。 其 优势 在 于 最 终 回复 答案 可 控 且 能 够 调整 ， 然 而 对 语料库 中 未 出 现 的 新 问题 难以 作 管 。 在 对 话 基 本 上 限定 在 一 个 特定 领 
域 的 应 用 场景 中 ， 基 于 规则 的 对 话 模型 无 论 是 准确 率 还 是 效率 都 比较 有 优势 。 


8.1.2 人 句 型 模板 匹配 标准 问题 生成 答案 


句 型 模版 匹配 标准 问题 生成 答案 是 指 将 用 户 问题 与 问答 库 当 中 的 句 板 模 板 进行 匹配 。 各 匹配 成 功 ， 则 根据 名 型 模板 提取 用 户 
问 句 当中 的 语义 信息 ， 进 而 生成 相应 的 答案 。 基 于 句 型 模板 匹配 的 问答 系统 避免 了 复杂 的 词法 分 析 、 句 法 分 析 及 语义 分 析 ， 根 所 


用 户 问 句 的 形式 就 能 够 得 到 句子 的 语义 ， 具 有 一 定 的 实用 性 。 但 是 这 种 方式 对 用 户 问 名 要求 较 高 ， 只 能 够 处 理 表达 比较 完整 的 用 


户 问题 。 


一 个 句 型 模板 主要 由 模板 本 身 和 参数 两 部 分 构成 。 在 用 尸 问 句 与 模板 匹配 成 功 后 ， 根 据 问 句 的 内 容 及 参数 之 间 的 分 阳 来 确定 


参数 。 


Wp 


例如 : 句法 模板 (A) (BY) (B) (大 约 | At) 是 多 少 ? 
Bich, (A) 5 (B) 都 是 参数 。 


当 用 尸 问 句 “ 计 算 机 的 内 存 大 概 是 多 少 ? ”与 句法 模板 匹配 成 功 后 ， 根 据 分 隔 “ 的 ”的 位 置 ， 可 以 确定 参数 (A) 为 “计算 
Hl" , BX (B) A "AF" . 


但 是 ， 在 实际 应 用 中 ， 用 户 问 名 的 表达 形式 多 种 多 样 。 当 用 户 提 问 无 法 与 句法 模板 匹配 时 ， 融 无 法 得 到 参数 及 准确 的 语义 信 
， 会 给 后 面 的 信息 检索 和 答案 生成 部 分 造成 困难 。 


cll 


8.1.3 AREAS SE SFIS 


问答 对 话 中 有 一 种 是 用 户 提 问 的 事实 性 问题 ， 事 实 性 问题 可 以 利用 知识 图 谱 进 行 推理 得 到 答案。 知识 图 谱 通 常 将 知识 表示 为 
三 元 组 ， 即 主语 、 关 系 、 宾 语 。 其 中 ， 天 系 表 示 主 语 和 宾语 间 的 关系 。 可 以 根据 实体 之 间 的 相互 天 系 推理 得 到 用 户 所 提 的 事实 性 
问题 的 答案 ， 例 图 如 图 8-2 所 示 。 


图 8-2 ”知识 图 谱 简 图 


基于 知识 图 谱 的 具体 问答 流程 如 下 。 


1) 名 型 判断 


判断 用 户 提问 是 朵 聊 还 是 问答 。 

例如 : 北京 的 面积 是 多 少 ?” 这 是 一 个 用 户 提问 的 事实 性 问题 ， 而 非 朵 聊 。 
2) 句子 实体 抽取 

将 用 户 提问 中 的 实体 抽取 出 来 。 

例如 : 北京 的 面积 是 多 少 ? 这 个 提问 当中 的 实体 为 北京 。 

3) 实体 匹配 

确认 提取 实体 的 具体 语义 、 类 别 等 。 

例如 : 上 文 提问 当中 的 北京 是 地 名 ，。 

4) 相似 度 匹 配 

使 用 词 向 量 或 模糊 匹配 等 方式 对 用 户 提问 中 的 属性 进行 匹配 。 
例如 : “是 多 少 ” 对 应 的 是 “面积 ”。 

5) 查询 图 谱 


得 到 用 户 提 问 的 答案 ， 即 北京 的 面积 。 


将 得 询 图 谐 得 到 的 答案 用 事先 准备 的 回答 模版 处 理 忆 后， 返回 给 用 户 。 


例如 : 北京 的 面积 是 1.6 万 平方 干 米 。 


8.2 多 轮 对 话 


8.2.1 BRR ARH 


多 轮 对 话 是 指 在 人 机 对 话 中 初步 获取 用 尸 意 图 之 后 ， 需 要 更 多 轮 次 的 对 话 来 获取 必要 的 信息 以 最 终 得 到 明确 的 用 尸 措 令 的 万 
陈 。 相 对 于 单 轮 对 话 表现 为 一 问 一 答 的 形式 ， 用 户 提出 问题 或 友 出 请 求 ， 系 统 识 别 用 户 意 图 ， 做 出 回答 或 执行 特定 操作 。 多 轮 对 
话 一 般 需要 用 到 上 下 文 信息 ， 以 及 对 话 状 态 的 管理 。 多 轮 对 话 一 般 可 以 分 为 开放 领域 的 多 轮 对 话 以 及 封闭 领域 的 多 轮 对 话 。 比 如 
情感 陪伴 型 闲聊 机 器 人 属于 开放 领域 的 多 轮 对 话 ， 垂 直 领 域 的 任务 型 多 轮 对 话 属于 封闭 领域 的 多 轮 对 话 。 


封 财 领域 的 多 轮 对 话 实现 难度 更 大 一 些 ， 封 闭 领 域 的 问答 系统 和 任务 驱动 的 多 轮 对 话 最 根本 的 区 别 在 于 系统 是 否 需要 维护 一 
个 用 户 目 标 状态 的 表示 ， 以 及 是 否 需要 一 个 决策 过 程 来 完成 任务 。 由 于 人 们 使 用 语言 的 随意 性 和 多 样 性 ， 从 而 市 来 了 问题 理解 的 
困难 性 。 使 得 问答 更 接近 于 一 个 信息 检索 的 过 程 ， 昌 然 也 可 能 涉及 简单 的 上 下 文 处 理 ， 但 通 单 是 通过 指 代 消解 和 Query 补 全 来 完 
成 的 。 


用 户 市 着 明确 的 目的 而 来 ， 希 刻 得 到 明确 满足 特定 限制 条 件 的 信息 或 服务 ， 例 如 : We. SRR eos. ATR 


求 可 能 比较 复习 ， 需 要 分 多 轮 进 行 陈述 ， 用 户 也 可 能 在 对 话 过 程 中 不 断 修改 或 完善 目 己 的 需求 。 此 外 ， 当 用 户 陈述 的 需求 不 够 具 
体 或 明确 的 时 候 ， 机 器 也 可 以 通过 询问 、 澄 清 或 确认 来 帮助 用 户 找到 满 晶 的 结果 。 因 此 ， 任 务 驱 动 的 多 轮 对 话 不 仅 是 一 个 简单 的 
目 然 语言 理解 加 信息 检索 的 过 程 ， 还 是 一 个 决策 过 程 ， 需 要 机 器 在 对 话 过 程 中 不 断根 据 当 前 的 状态 决策 下 一 步 应 该 采 取 的 最 优 动 
(E (如 : 提供 结果 、 询 问 特定 限制 条 件 、 澄 清 或 确认 需求 等 ) 从 而 能 够 最 有 效 的 辅助 用 户 完 成 信息 或 服务 获取 的 任务 。 


8.2 多 轮 对 话 


8.2.1 BRR ABA 


多 轮 对 话 是 指 在 人 机 对 话 中 初步 获取 用 尸 意 图 之 后 ， 需 要 更 多 轮 次 的 对 话 来 获取 必要 的 信息 以 最 终 得 到 明确 的 用 尸 措 令 的 万 
陈 。 相 对 于 单 轮 对 话 表现 为 一 问 一 答 的 形式 ， 用 户 提出 问题 或 友 出 请 求 ， 系 统 识 别 用 户 意 图 ， 做 出 回答 或 执行 特定 操作 。 多 轮 对 
话 一 般 需要 用 到 上 下 文 信息 ， 以 及 对 话 状 态 的 管理 。 多 轮 对 话 一 般 可 以 分 为 开放 领域 的 多 轮 对 话 以 及 封闭 领域 的 多 轮 对 话 。 比 如 
情感 陪伴 型 箱 聊 机 器 人 属于 开放 领域 的 多 轮 对 话 ， 垂 直 领 域 的 任务 型 多 轮 对 话 属于 封闭 领域 的 多 轮 对 话 。 


封闭 领域 的 多 轮 对 话 实 现 难 度 更 大 一 些 ， 封 闭 领域 的 问答 系统 和 任务 驱动 的 多 轮 对 话 最 根本 的 区 别 在 于 系统 是 人 否 需 要 维护 一 
个 用 户 目 标 状 态 的 表示 ， 以 及 是 否 需要 一 个 决策 过 程 来 完成 任务 。 由 于 人 们 使 用 语言 的 随意 性 和 多 样 性 ， 从 而 市 来 了 问题 理解 的 
困难 性 。 使 得 问答 更 接近 于 一 个 信息 检索 的 过 程 ， 虽 然 也 可 能 涉及 简单 的 上 下 文 处 理 ， 但 通常 是 通过 指 代 消解 和 Query 补 全 来 元 
成 的 。 


用 户 市 着 明确 的 目的 而 来 ， 希 望 得 到 明确 满足 特定 限制 条 件 的 信息 或 服务 ， 例 如 : 订餐 、 订 票 或 某 种 商品 等 。 由 于 用 户 的 需 
求 可 能 比较 复习 ， 需 要 分 多 轮 进行 陈述 ， 用 户 也 可 能 在 对 话 过 程 中 不 断 修改 或 完善 目 己 的 需求 。 此 外 ， 当 用 户 陈述 的 需求 不 够 具 
体 或 明确 的 时 候 ， 机 器 也 可 以 通过 询问 、 澄 清 或 确认 来 帮助 用 户 找到 满意 的 结果 。 因 此 ， 任 务 驱 动 的 多 轮 对 话 不 仅 是 一 个 简单 的 
目 然 语言 理解 加 信息 检索 的 过 程 ， 还 是 一 个 决策 过 程 ， 需 要 机 器 在 对 话 过 程 中 不 断根 据 当 前 的 状态 决策 下 一 步 应 该 采 取 的 最 优 动 
(E (如 : 提供 结果 、 询 问 特定 限制 条 件 、 澄 清 或 确认 需求 等 ) 从 而 能 够 最 有 效 的 辅助 用 户 完成 信息 或 服务 获取 的 任务 。 


8.2.2 ”任务 型 多 轮 对 话 的 控制 和 生成 


我 们 将 以 任务 型 多 轮 对 话 为 重点 ， 任 务 型 机 器 人 核心 模块 主要 包括 以 下 3 个 模块 : 目 然 语言 理解 模块 (NLU) 、 对 话 管 理 模 
块 、 目 然 语 言 生成 模块 (NLG) 。 


1) 目 然 语言 理解 模块 。 


当 进 行 任务 型 聊天 机 器 人 对 话 ， 首 先 要 经 过 上 自然 语言 理解 模块 ， 一 般 可 分 为 领域 识别 、 用 户 意 图 识别 以 及 模 位 提取 3 个 子 模 
块 。 


- 领域 识别 ， 即 识别 该 语句 是 不 是 属于 当前 的 任务 场景 ， 一 般 由 多 个 机 器 人 集成 ， 如 闲聊 机 器 人 、 问 答 机 器 人 等 。 领 域 识 别 


应 当 在 进入 任务 型 机 器 人 之 前 做 判断 与 分 发 。 


意图 识别 ， 即 识别 用 户 意图 ， 细 分 该 任务 型 场景 下 的 子 场景 ， 实 体 识别 与 楼 位 填充 ， 用 于 对 话 管理 模块 的 输入 。 意 图 的 识 


场 
别 实 际 上 是 一 个 分 类 问题 ， 如 基于 规则 、 传 统 机 器 学 习 算 法 (SVM) 、 基 于 深度 学 习 算 法 (CNN、LSTM、RCNN、C-LSTM、 


FastText) 等 。 意 图 在 对 话 中 还 涉及 转换 ， 这 里 不 在 说 明 。 


` 档 位 提取 实际 上 是 一 种 序列 标记 的 任务 。 如 基于 规则 、 基 于 传统 机 器 学 习 算 法 (DBN; SVM) ， 基 于 深度 学 习 间 法 
(LSTM、Bi-RNN、Bi-LSTM-CRF) 。 


权 是 多 轮 对 话 过 程 中 将 初步 用 尸 意 图 转化 为 明确 用 尸 指 令 所 需要 补 全 的 信息 对 话 管 理 模块 ， 一 个 槽 与 一 件 事情 的 处 理 中 所 需 
要 获取 的 一 种 信息 相对 应 。 模 可 以 分 为 词 槽 与 接口 槽 ， 利 用 用 户 话 中 天 键 词 来 填写 的 槽 叫 作词 槽 ， 利 用 用 户 画 像 以 及 其 他 场景 信 
息 填写 的 横 叫 作 接 口 模 。 湾 清 话 术 是 对 话机 器 人 希望 获取 某 种 信息 时 所 使 用 的 问 句 。 比 如 买 衣 服 ， 你 需要 知道 东西 的 价格 、 颜 色 
等 属性 信息 。 确 定 槽 组 中 必 填 模 组 之 间 的 湾 清 顺序 ， 当 接收 到 用 户 问 句 后 ， 对 还 未 填充 完成 的 必 填 槽 组 依次 进行 淤 清 即 可 。 


2) 对 话 管理 系统 。 


对 话 管理 (Dialog Management, DM) 控制 着 人 机 对 话 的 进程 ， 对 话 管 理 通 过 对 目 然 语 言 理 解 模块 的 输出 (AeA. 
位 、 模 位 信息 ) 的 处 理 来 进行 和 用 户 的 交互 和 反应 。 针 对 市 着 明确 意图 的 用 户 ， 在 对 话 管理 过 程 中 用 户 不 但 可 以 完善 或 修正 目 己 
需求 ， 管 理 系统 也 可 以 在 用 户 需 求 不 够 具体 的 时 候 明 确 或 者 温 清 用 户 的 需求 ， 以 达到 最 终 的 任务 完成 


对 话 管 理 系 统 包括 两 部 分 一 一 状态 仍 中 以 及 对 话 策略 ， 如 图 8-3 所 示 。 


NLU DST 
=m |CO | 对 活 状 态 维护 


Policy 
语言 生成 生成 系统 决策 


图 8-3 ”对 话 管 理 系 统 示意 


状态 追踪 模块 包括 持续 对 话 的 各 种 信息 ， 根 据 上 日 状态 、 用 户 状态 (意图 、 模 位 、 模 位 信息 ) 与 系统 状态 ( 即 通过 与 数据 库 的 
查询 情况 ) 来 更 新 当前 的 对 话 状 态 。 对 话 策略 与 所 在 任务 场景 息息相关 ， 通 常 作为 对 话 管 理 模 块 的 输出 ， 如 对 该 场景 下 缺失 槽 位 
的 反问 策略 等 。 


. 对 话 状 态 维护 ， 根 据 上 一 个 时 刻 的 状态 和 系统 行为 ， 结 合 当 前 时 刻 状态 下 的 用 户 行为 ， 来 确定 当前 时 刻 的 对 话 状 态 。 


生成 系统 决策 ， 根 据 当 前 时 刻 的 对 话 状态 以 及 产生 的 系统 行为 ， 决 定 下 一 步 的 系统 行为 ， 可 以 表示 观测 到 的 用 户 输入 ， 以 
及 系统 的 反馈 行为 。 


其 中 对 话 状态 跟 中 在 多 轮 对 话 中 尤其 重要 。 对 话 状态 其 最 主要 的 目标 是 用 户 的 目的 ， 就 是 根据 多 轮 的 对 话 来 确定 用 尸 当 前 的 
目标 到 底 是 什么 的 过 程 即 任务 完成 的 进度 。 对 话 状 态 的 维护 可 以 利用 规则 的 方式 处 理 ， 在 大 规模 的 语 料 尝 试 了 利用 RNN 进 行 多 
轮 对 话 的 状态 追 踊 和 判断 。 


下 面 以 电 商 推荐 系统 的 多 轮 对 话 为 示例 ， 如 表 8-1 所 示 ， 来 演示 对 话 管理 系统 的 多 轮 对 话 中 的 运行 原理 : 


表 8-1 电 商 推荐 系统 (1) 


轮 次 行为 判断 
] 
2 意图 识别 (EKI & 连衣裙) 
3 
4 
3 


推荐 行为 ， 进 入 语言 生成 模块 


3) 目 然 语言 生成 模块 。 


基于 多 轮 对 话 的 自然 语言 生成 ， 通 党 也 采用 基于 模版 、 基 于 语法 或 模型 等 。 模 版 与 语法 主要 基于 规则 的 策略 ， 模 型 可 以 用 如 
Segq2Seq 等 网 络 生 成 自然 语言 。 


8.2.3 ”多 主题 多 轮 对 证 


话题 切换 是 指 用 尸 与 用 户 的 对 话 从 一 个 多 轮 过 程 切 换 至 另 一 个 多 轮 过 程 ， 针 对 一 个 任务 型 多 轮 对 话 系统 有 多 个 不 同 的 场景 。 
比如 一 个 电 商 导购 机 器 人 ， 其 包括 商品 查询 、 商 品 购买 、 推 荐 、 以 及 退货 等 。 话 题 的 切 损 有 主动 切换 和 被 动 切换 之 分 ， 主 动 切换 
是 指 用 户主 动 改变 目 己 的 意图 ， 比 如 导购 机 器 人 系统 中 ， 用 户 从 得 询 商 品 到 商品 推荐 ， 融 可 以 理解 为 主动 的 话题 切换 。 被 动 的 话 
题 切 换 是 指 系统 友 现 无 法 从 用 户 的 问 句 中 抽取 信息 以 继续 当前 的 多 轮 对 话 ， 只 好 将 其 作为 一 条 全 新 的 问 句 重新 进行 解析 和 话题 识 
J, 


UO 


在 多 主题 多 轮 对 话 的 过 程 中 ， 可 以 利用 槽 记忆 进行 信息 的 继承 ， 这 通常 适用 在 被 动 式 的 话题 切换 中 。 在 多 轮 对 话 的 过 程 中 ， 
由 于 信息 缺失 或 者 算法 的 局 限 性 或 者 其 他 原因 有 可 能 会 存在 意图 理解 出 现 误 差 的 情况 。 此 外 ， 在 多 轮 对 话 中 也 会 存在 不 同 主题 的 
交叉 连续 出 现 。 比 如 电 商 导购 机 器 人 系统 、 商 品 详细 信息 得 询 以 及 商品 推荐 一 般 会 区 蔡 出 现 ， 当 用 户 在 一 定时 间 内 重新 回 到 原 话 
题 时 ， 不 应 访 利 用 澄清 话 术 让 用 户 重 复 填 槽 ， 损 坏 用 户 的 体验 ， 而 是 应 该 利用 槽 的 记忆 功能 ， 其 称 乙 为 多 轮 状 态 记 忆 。 


此 外 ， 在 多 轮 对 话 中 存在 主题 之 间 的 切换 ， 多 轮 对 话 也 可 以 在 不 同 的 状态 进行 交 蔡 和 切换 。 如 表 8-2 所 示 ， 多 轮 对 话 的 状态 
可 以 回 到 之 前 的 状态 从 而 进行 横 位 更 新 。 


表 8-2 ” 电 商 推荐 系统 (2) 


轮 次 行为 判断 

| 聊天 
意图 识别 -商品 购买 

2 
槽 填充 (红色 & 连衣裙 ) 

澄清 需求 

4 槽 填充 (红色 & EK) 

5 推荐 行为 ， 进 入 语言 生成 模块 

= s 
第 9 草 对话 系 统 的 工程 架构 
本 章 主要 介绍 对 话 系统 架构 的 一 些 重 要 知识 。 首 先 ， 介 绍 一 下 对 话 系 统 需要 的 一 些 工 程 技术 ， 然 后 再 介绍 一 些 关 于 对 话 系统 


工程 运 维 的 知识 ， 最 后 ， 分 别 介 绍 面 向 两 个 针对 不 同 领域 的 对 话 系统 的 工程 架构 。 


9.1 ”对 话 系统 的 工程 技术 


前 面 的 草 节 中 已 经 用 了 很 大 的 篇 幅 介 绍 了 一 些 与 对 话 系统 相关 的 机 器 学 习 算 法 、 目 然 语 言 处 理 的 相关 理论 及 算法 ， 同 时 也 介 
绍 了 一 些 比 较 前 沿 的 深度 学 习 理 论 和 算法 ， 对 于 对 话 系 统 来 讲 ， 这 些 技术 都 只 是 “ 巧 妇 ”手中 的 “ 米 ”。 但 对 于 染 构 一 个 工程 上 
可 用 的 对 话 系 统 ， 不 能 完全 依靠 算法 ， 同 时 也 需要 更 可 靠 的 工程 架构 以 及 犹如 精密 具 轮 咬合 一 般 的 工程 设计 与 实现 。 


Og 这 里 需要 首先 说 明 一 下 ， 在 行文 中 聊天 机 器 人 、 对 话机 器 人 、 对 话 系 统 所 指 为 同一 个 事物 。 这 里 采用 不 同 的 称 


谓 ， 使 行文 更 具 多 样 性 。 


设计 对 话 系 统 应 该 从 以 下 几 个 方面 进行 考虑 : 数据 层 、 算 法 层 、 服 务 层 以 及 应 用 层 。 这 个 架构 其 实 更 符合 现在 所 有 软件 系统 
的 架构 。 对 于 庞大 复杂 的 系统 ， 分 层 架 构 是 最 好 解决 万 案 ， 结 构 如 表 9-1 所 示 。 


表 9-1 对 话 系 统 分 层 架 构 


数据 层 提供 数据 存储 访问 服务 ， 如 数据 库 、 缓 存 、 文 件 、 搜 索引 擎 等 

算法 层 在 数据 层 之 上 ， 提 供 对 话 相关 的 算法 

服务 层 为 应 用 层 提供 服务 支持 ， 如 对 话 流程 管理 、 用 户 权限 管理 、 对 话 内 容 管理 等 
VAE 负责 具体 的 对 话 业 务 视图 展示 ， 如 对 话 内 容 显示 等 


一 个 优秀 的 软件 系统 需要 有 一 个 不 错 架 构 设 计 。 如 果 没 有 好 的 架构 ， 残 如同 是 架 在 流沙 上 的 楼 冶 。 且 对 话 系 统 更 需要 一 个 清 


晰 明确 的 工程 架构 ， 但 是 对 话 系 统 相 比 于 普通 的 架构 又 稍 有 了 区别。 在 2016 年 CCIA 会 议 的 报告 中 曾经 给 出 了 一 个 对 话 系 统 的 一 般 
性 架构 ， 如 图 9-1 所 示 。 


User Profiling Context Modeling 


Intent, Focus, Topic, Chit-chat, QnA and 站 Language Style 
Emotion, Opinion Dialogue Session Consistency Personalization Dialect Emotion 
Candidate 
ey . 一 一 Response 一 Ranking 一 一 Selection — [Style Variation 
Understanding Ganarstion 
General Topic Knowledge Base Data & Index Topic-Centered Knowledge Base 


图 9-1 对话 系统 的 一 般 性 架构 


在 表 9-1 和 图 9-1 中 其 实 表 示 的 一 怪 谷 义 。 这 个 架构 图 中 集中 体现 了 分 层 架 构 的 思想 。 数 据 、 索 引 、 知 识 图 谱 等 为 数据 层 ; 
算法 层 包 含 了 意图 理解 、 对 话 生 成 、 排 序 等 ; 而 在 服务 层 则 表现 为 各 种 在 算法 层面 上 的 提供 的 基础 服务 ;应 用 层 包 含 两 方面 内 
容 ， 一 方面 是 用 户 信息 ， 另 一 方面 是 文本 模型 。 


9.1.1 WAI 


对 话 系统 是 一 个 复杂 的 系统 。 不 仅 需 要 有 可 靠 地 算法 文 持 ， 还 要 有 必需 地 工程 技术 支持。 由 于 本 书 篇 幅 有 限 ， 不 能 涉及 所 有 
近 术 细节 。 前 文 已 提 到 过 对 语系 统 的 分 层 以 构 ， 每 一 层 都 需要 一 些 技术 支持 ， 如 表 9-2 所 示 。 


表 9-2 对话 系 统 分 层 架 构 第 用 技术 


1) 撒 层 存储 介质 


数据 层 DB (MySQL, Mongo DB、HBase) Neo4j, Solr, ElasticSearch 等 2) 架 在 存储 介质 
上 类 存储 介质 
NLU $Ñ: 
Segmentation ( Hanlp, Jieba, ICTCIAS, NLPIR, Stanford CoreNLP 等 ) 
Postag ( Hanlp Jieba, ICTCLAS, NLPIR, Stanford CoreNLP 等 ) 
NER (Hanlp Stanford CoreNLP 等 ) 
1) NLU 
算法 层 同义词 
2) NLG 


文本 特征 化 (TF-IDF, Text Rank, Word2 Vector 等 ) 
文本 分 类 (Fast Text, SVM, Fh ae DUMP ITS) 

文本 聚 类 (K-Means, DBSCAN 等 ) 

NLG 技术 : 对 话 生成 等 


服务 层 MVC 架构 >RPC 架构 >>SOA 架构 > 微服 务 架 构 


应 用 层 对 话 管 理 、Task Engine, WEEE, AIRESE 


这 里 具体 讲 讲 算 法 层 的 技术 ， 这 些 技术 是 自然 语言 处 理 (NLP) 核心 技术 ， 也 是 对 话机 器 人 核心 技术 ， 如 图 9-2 所 示 。 
分 词 Segmentation 
词性 标注 Pos tagging 


命名 实体 识别 Named Entity Recognition 


实体 关系 提取 Entity Relation Extraction 
目 然 语言 理解 
句法 结构 解析 Syntactic Structure Parsing 


句子 
依存 结构 解析 Dependency Parsing 
情感 分 析 Sementimental Analysis 
文档 oe 
主题 模型 Topic Modeling 
目 然 语 言 处 理 
文本 摘要 Text Summarization 
拼写 纠 错 Spelling Checking 
Textto text J 句法 纠 错 Grammar Correction 
目 然 语言 生成 K 机 器 翻译 Machine Transtation 
Text Paraphrasing 


Data to text 回复 生成 
Version to Text (图 片 /视频 标题 生成 ) 


图 9-2 ”对 话机 器 人 核心 技术 


9.1.2 ”对 话 系 统 的 分 类 


对 话 系统 主要 包括 4 类 : 问答 型 对 话 系统 、 任 务 型 对 话 系统 、| 闲 聊 型 对 话 系统 、 图 谱 型 对 话 系统 ， 如 图 9-3 所 示 。 


对 话 系 统 


问答 型 对 话 任务 型 对 话 闲聊 型 对 话 图 谱 型 对 话 

e QABot e Task Bot e Chat Bot e KBQA 

o 单 轮 对 话 © 多 轮 对 话 o 不 解决 问题 。 基于 图 语 的 推理 
。 上 下 文 无 关 。 针 对 特定 场景 ””。 自然 交 互 。 解 决 特 定 问题 


。 多 轮 会 话 


图 9-3 ”对 话 系 统 分 类 


9.1.3 ”主要 系统 软件 介绍 


系统 安 六 这 里 主要 指 开 友 对 话 系 统 的 所 需 软 件 的 安 羔 。 开 发 对 话 系统 及 用 的 技术 和 软件 也 不 可 能 局 限于 一 种 。 目 前 主流 的 技 
术 无 非 是 深度 学 习 的 开 友 和 大 数据 的 开 友 。 大 数据 扩 术 和 系统 在 对 语系 统 的 语 料 的 分 析 上 起 到 一 定 作 用 。 真 正 能 影响 到 对 话 系统 
技术 还 是 深度 学 习 技 术 和 搜索 技术 的 提升 和 改进 。 


深度 学 习 现 在 正 处 在 一 个 车 过 友 展 的 阶段 ， 各 种 深度 学 习 的 开发 工具 和 框架 也 层 出 不 因 。 常 见 的 深度 学 习 框 染 有 
TensorFlow、Torch、Keras、CNTK、Deeplearning4j、MXNet 等 ， 如 表 9-3 所 示 。 


Linux , Windows, Mac OS X., Android, 
TensorFlow Google Python /C ++/Go/::: 
IOS 


Caffe BVLC C++/Python Linux, Windows, Mac OS X 


Linux , Windows, Mac OS X, Android, 


MXNet DMLC Python/C ++/R/::- 
IOS 


Linux , Windows, Mac OS X., Android, 


Torch7 Facebook Lua 
IOS 
Deeplearning4 J Deeplearning4 J Java/scala Linux , Windows, Mac OS X., Android 


TensorFlow 是 谷歌 开源 的 一 个 计算 框架 ， 这 个 计算 框架 可 以 很 好 地 实现 各 种 深度 学 习 算 法 。 从 表 9-3 中 也 可 以 看 出 
TensorFlow 框 架 的 技术 优势 ， 且 可 以 看 出 所 有 的 深度 学 习 都 在 上 友 展 中 。 在 选择 深度 学 习 工 具 的 过 程 中 需要 考虑 不 同 工 具 的 友 展 
趋势 。 


检索 系统 在 一 些 对 话 系统 中 也 是 经 常会 用 到 的 。 这 里 介绍 一 下 检索 软件 的 安 沪 。 


Lucene 是 Apache 孵 化 的 一 个 全 文 检 索 工 具 包 。 它 有 很 多 优点 ， 比 如 性 能 好 、 功 能 全 等 。 我 们 可 以 把 对 话 系统 中 问 与 答 ， 利 
用 Apache Lucene 建 立 索 3 引 和 查询 索引 。 在 商业 和 生产 过 程 中 还 可 以 利用 Elastic Search 建 立信 息 索 引 系 统 。 


Elastic Search 是 基于 Apache Lucene 的 开源 搜索 3| 警 ， 它 文 持 分 布 式 实 时 全 文 检 索 和 分 析 。 其 有 很 多 优点 ， 比 如 高 性 能 、 
弹性 扩展 、 安 装配 置 简单 等 特点 。 


Docker 是 一 种 容器 拷 术 。 它 可 以 帮助 构建 、 友 布 和 执行 软件 服务 标准 。 容 器 拉 术 可 以 屏 菩 操作 系统 市 来 的 不 一 人 怪 ， 使 软件 
Ath, FR, Ieee Sis. 


91.4 ”系统 运 维 相 天 


对 话 系统 和 其 他 复杂 的 软件 系统 一 样 ， 复 杂 的 系统 为 了 上 线 能 够 平稳 地 运行 都 应 该 学 习 大 型 网 站 的 运 维 拷 术 。 实 践 证 明 ， 没 
有 一 个 好 的 运 维 ， 对 于 对 话 系统 的 线 上 服务 是 致命 的 。 下 面 写 一 些 天 于 对 话 系统 工程 运 维 的 经 验 ， 这 些 经 验 对 于 新 手 来 况 是 非常 
重要 的 。 


运 维 相 天 的 经 验 分 为 两 类 ， 一 类 是 由 于 算法 设计 方面 造成 的 缺陷 ， 另 一 类 是 由 于 软件 设计 造成 的 。 下 面 分 别 前 述 


第 一 类 是 由 于 算法 设计 方面 造成 的 一 些 缺 陷 。 
1) 问题 超出 意图 范围 


` 问题 描述 : 如 果 在 一 个 对 话 系 统 中 问题 超出 了 意图 的 范围 该 怎么 办 ? 超出 意图 的 范围 分 为 以 下 两 种 情况 : 一 是 用 户 意 图 本 
身 就 很 模糊 ; 二 是 Bot 的 算法 模块 还 无 法 识别 意图 。 


“ 解决 方法 : 根据 这 两 种 情况 解决 方案 也 有 所 不 同 。 对 于 意图 模糊 的 情况 ， 机 器 人 会 推荐 一 些 近 似 的 问题 ， 询 问 用 户 是 否 想 
问 这 些 近 似 问 题 。 推 荐 问题 将 出 现 两 轮 ， 第 一 轮 按照 语义 相似 度 ， 列 出 43，b，c，d 4 个 选项 ， 如 果 列 出 常 问 的 4 个 主意 图 供 将 都 
不 是 用 户 选 择 。 两 轮 均 没 有 命中 ，bot 可 以 回复 一 个 低 分 ， 表 示 不 在 处 理 范 围 。 如 果 是 意图 识别 分 数 很 低 ， 可 以 尝试 让 不 同 的 bot 
解决 。 


2) 回复 /推荐 内 容错 误 


` 问题 描述 : 标准 文案 更 新 但 没有 及 时 更 新 机 器 人 回复 话 术 。 产 品 上 线 的 时 候 回 复 话 术 是 人， 但 是 经 过 一 段 时 间 ， 重 新 给 出 
话 术 B， 没 有 同步 修改 机 器 人 ， 导 致 机 器 人 回复 的 还 是 A。 


` 解决 方法 : 对 系统 标准 文案 应 进入 后 台 管 理 系 统 进行 管理 ， 对 于 回复 不 当 的 文案 应 该 有 一 个 反馈 机 制 。 
第 二 类 是 由 于 软件 设计 上 的 缺陷 所 造成 的 。 
1) 写 日 志 很 重要 同时 也 会 出 现 故 障 


前 文 已 经 多 次 提 及 对 话 系 统 是 一 个 复杂 的 系统 。 对 于 这 么 一 个 既 大 又 全 而 且 还 非常 复杂 的 系统 来 讲 ， 每 一 个 部 分 都 可 以 独立 
称 为 一 个 小 型 系统 。 可 以 说 对 话 系统 跟 大 型 的 网 站 来 比 ， 残 像 一 只 麻 佚 ， 麻 仪 虽 小 但 五 脏 俱全 。 对 话 系 统 各 个 部 分 都 应 访 有 明确 
地 可 以 追溯 的 日 志 ， 这 样 当 它 某 一 个 部 分 友 生 故障 时 ， 才 能 可 以 快速 地 排查 。 下 面 ， 笔 者 丈 曾 遇 到 过 关于 日 志 出 现 的 故障 展开 襄 
明 。 


“ 故障 现象 1: 聊天 应 用 服务 器 集群 发 布 不 久 就 出 现 了 多 台 服 务 器 相继 报警 ， 硬 盘 很 快 被 占 满 。 而 且 发 现 Log 文 件 夹 里 的 文件 


迅速 增加 。 


` 原因 分 析 : 开发 人 员 在 开发 某 一 个 模块 时 因为 没有 注意 到 Log 的 级 别 ， 将 Log 的 输出 全 局 配置 为 Debug。 这 样 当 调 用 该 微服 
务 时 就 会 输出 大 量 的 相关 日 志 。 


“ 故障 现象 2: 聊天 系统 可 能 会 集成 很 多 功能 模块 ， 每 一 个 功能 模块 可 以 被 打包 成 微服 务 的 形式 ， 每 一 个 微服 务 对 外 输出 的 
日 志 只 有 一 个 。 但 当 线 上 服务 发 布 完 成 后 出 现 故障 时 ， 有 效 的 日 志 却 无 法 得 到 。 


: 原因 分 析 : 对 于 跨 平 台 的 日 志 输 出 打印 日 志 应 该 是 有 效 的 。 但 对 于 无 效 的 日 志 输 出 是 无 法 定位 问题 和 追溯 问题 原因 的 。 
2) 对 数据 库 的 操作 需要 齐 愤 ， 高 并 友 访 问 数 据 库 可 能 会 引起 故障 
在 大 公司 开发 、DBA、 运 维 各 司 其 职 。 在 操作 数据 库 时 需要 极度 小 心 慎重 ,不管 是 开发 还 是 资深 的 DBA 都 需要 注意 。 
“ 故障 现象 1: 一 次 对 话 系统 发 布 后 ， 对 于 商品 详情 页 链接 的 图 片 全 部 无 法 正 第 显示 。 
RATH: 因为 在 开发 过 程 中 采用 了 第 三 方 开发 人 员 ， 第 三 方 开发 人 员 因 为 在 数据 库 操作 过 程 ， 不 愤 将 所 有 的 图 片 删 除 。 
- 故障 现象 2: 一 次 发 布 后 ， 某 个 服务 频繁 超时 ， 数 据 库 Load 居 高 不 下 ， 持 续 报警 。 


“ 原因 分 析 : 在 检查 该 服务 时 ， 发 现 该 服务 有 操作 数据 库 的 过 程 。 发 生 报警 原因 是 因为 茶 条 SQL 引起 。 


3) 缓存 引 友 的 故障 


对 话 系统 最 核心 的 部 分 是 目 然 语言 理解 和 目 然 语 言 的 生成 。 在 目 然 语 言 理解 模块 中 ， 如 果 不 考虑 系统 的 性 能 ， 融 会 拖 垮 整个 
系统 的 性 能 。 


“ 故障 现象 : 一 次 对 话 系统 发 布 后 ， 发 现 系 统 服 务 经 第 超时 。 


` 原因 分 析 : 细 查 对 话 系 统 的 对 话 理解 (Conversational Understanding) 功能 模块 ， 发 现 CU 模 块 中 处 理 过程 中 没有 缓存 机 
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生产 环 境 位置 比 较 特 殊 ， 线 上 业务 的 顺利 运行 必须 依赖 平稳 的 生产 环境 。 生 闫 环境 的 地 位 严肃 不 容 侵犯 。 在 操作 流程 中 也 必 
须 规范 ， 这 样 可 以 减少 不 必要 的 麻烦 。 


故障 现 架 : 一 次 发 布 ， 因 为 没有 合适 测试 环境 ， 并且 发 布 必 须 走 测试 流程 ， 所 以 就 在 生产 环境 中 做 了 测试 。 因 为 系统 是 关 
次 发 布 运 行 ， 所 以 在 干净 的 生产 环境 中 做 了 测试 。 但 是 因为 生产 环境 和 测试 环境 的 相对 隔离 ， 所 以 存在 一 定 的 隐 忠 。 


5) 单 台 机 器 不 可 用 
. 故障 现象 : 一 次 发 布 ， 该 机 器 上 所 有 的 服务 实例 都 无 法 访问 ， 发 到 该 台 机 器 上 服务 请 求 都 会 失败 。 


RAD: 因为 服务 实例 都 部 署 到 一 台 机 器 人 人， 如果 单 台 机 器 宕 机 ， 该 服务 实例 的 备份 又 没有 部 署 到 其 他 机 器 上 ， 就 会 造 
成 上 面 现象 的 出 现 。 


续 上 所 述 ， 系 统 工程 运 维 其 实 是 一 个 比较 重要 和 必要 的 过 程 。 在 系统 运 维 过 程 中 需要 注意 到 各 个 方面 于 多 细微 的 工作 。 


9.2 ”对 话 系统 的 架构 实现 


前 面 已 经 讲 到 了 对 话 系 统 分 层 的 工程 架构 设计 ， 这 个 架构 还 是 比较 具有 一 般 性 和 代表 性 的 。 这 个 染 构 设计 不 仅 适 合 于 对 话 系 
统领 域 ， 而 且 适 合 整个 软件 系统 的 设计 。 


在 过 去 的 20 年 中 ， 互 联网 把 人 们 市 入 了 一 个 全 新 的 时 代 。 在 这 个 全 新 的 时 代 ， 我 们 创造 出 了 4 种 连接 方式 : 一 是 人 和 物品 之 
间 的 连接 ; 二 是 人 与 人 之 间 的 连接 ; 三 是 人 和 信息 之 间 的 连接 ; 四 是 人 和 设备 之 间 的 连接 。 但 连接 不 是 目的 ， 它 只 是 为 交互 提供 
相应 的 服务 。 对 我 们 每 一 个 人 来 说 ， 最 友好 最 目 然 的 交流 万 式 束 是 及 用 目 然 语言 的 方式 进行 交互 。 并 通过 目 然 语言 的 方式 进行 交 
互 完 成 对 话 系 统 的 设计 与 实现 。 


前 文 已 经 详细 摘 述 了 对 话 系 统 的 友 展 历程 。 这 里 笔者 只 想 通过 介绍 几 个 行业 对 话 系 统 的 架构 实现 ， 抽 和 象 出 它们 的 共性 ， 为 读 
者 在 搭建 自己 的 对 话 系统 提供 便利 。 


9.2.1 ÆJ 


阿里 巴巴 于 2015 年 7 月 推出 了 阿里 小 密 产 品 ， 在 面世 的 仪 仅 几 年 中 ， 阿 里 小 密友 展 之 迅速 令 人 难以 想象 。 阿 里 小 密 给 出 了 一 


个 典型 的 智能 对 话 系 统 的 架构 ， 如 图 9-4 所 示 。 


图 9-4 ”典型 的 智能 对 话 系 统 


这 个 架构 不 失 一 般 性 ， 放 到 任何 一 家 公司 ， 只 要 蔡 换 相应 的 底层 数据 ， 做 好 与 数据 对 应 的 具体 算法 及 服务 ， 束 可 以 成 为 一 个 
实 实在 在 的 落地 项 目 。 

从 上 面 这 张 智 能 对 话 系统 的 架构 图 中 可 以 看 出 ， 自 然 语言 处 理 (NLP) 是 对 话 系统 的 核心 部 分 。 通 过 阿里 巴巴 公开 分 享 的 技 
术 文 档 来 看 ， 在 阿里 小 蜜 中 有 一 个 比较 核心 的 功能 模块 。 这 个 核心 模块 功能 ， 除 了 自然 语言 理解 和 对 话 管 理 之 外 ， 还 包括 智能 问 
答 模块 用 来 完成 问答 类 任务 ， 以 及 智能 聊天 用 来 完成 雁 聊 类 任务 。 它 对 外 提供 了 Saas 平 台 文 持 、Paas 平 台 文 持 以 及 
BotFrameWork 支 持 。BotFrameWork 为 用 户 提供 可 定制 化 智能 助理 平台 服务 。 图 9-5 充 分 体现 了 分 层 染 构 的 思想 ， 也 清晰 地 讲 
解 了 阿里 小 密 的 架构 。 


对 话 管理 DM 


自然 语言 理解 NLU 党 能 问答 (QA) 智能 聊天 (Chat) 
图 9-5 ”智能 对 话 交 互 中 的 核心 模块 


在 核心 模块 中 可 以 突显 出 几 个 重要 的 知识 点 : 第 一 ， 目 然 语言 理解 NLU 是 整个 系统 的 核心 ， 第 二 ， 智 能 问答 和 智能 聊天 是 
游离 在 NLU 功 能 模块 外 的 ;第 三 ， 对 话 系统 提供 不 同 平台 的 服务 功能 。 


自然 语言 理解 的 语义 表示 主要 有 分 布 语义 表示 (Distributional Semantics) 、 框 架 语义 表示 (Frame Semantics) 和 模型 
论语 义 表示 (Model-theoretic Semantics) 3 种 方式 。 一 般 地 ， 在 对 话 系 统 自 然 语言 理解 采用 的 是 Frame Semantics 表 示 的 一 
种 变形 ， 即 采用 领域 (Domain) 、 意 图 (Intent) 和 属性 槽 (Slots) 来 表示 语义 结果 ， 如 图 9-6 所 示 。 


Domain 


图 9-6 ”领域 知识 示意 图 


同时 小 蜜 的 技术 分 享 文 档 中 也 给 出 了 目 然 语言 理解 的 处 理 钦 辑 流 程 。 这 张 图 主要 讲述 了 阿里 小 蜜 NLU 部 分 的 处 理 流程 ， 可 
以 看 出 意图 分 类 、 属 性 抽取 以 及 基于 上 下 文 的 意图 排序 是 NLU 重 要 的 组 成 部 分 。 这 里 给 出 了 每 一 个 部 分 对 应 所 采用 的 算法 模 
型 ， 这 些 算法 模型 在 前 文中 都 有 所 提 及 ， 这 里 融 不 再 详细 展开 了 。 如 图 9-7 所 示 。 


意图 分 类 : 一 种 文本 分 类 
基于 规则 的 方法 
ATARI ITE: m 基于 传统 学 习 的 方法 : 朴素 贝 叶 斯 、SVM、 决 策 树 等 
基于 深度 学 习 的 方法 : CNN、LSTM、Fasttext 等 
属性 抽取 : 抽象 序列 标注 问题 一 = 命名 实体 识别 
基于 规则 的 方法 
属性 抽取 的 方法 : 3 种 全， 基于 传统 学 习 的 方法 : HMM. CRF 
基于 深度 学 习 的 方法 : RNN、LSTM、Bi-RNN、 
Bi-ISTM-CRE 


- 上 下 文章 图 : 表达 + 情景 
FEF EFM 
的 意图 排序 


排序 方法 : 分 类 + 特征 提取 +LR 


图 9-7 阿里 小 密 自 然 语言 理解 (NLU) 流程 图 


由 于 篇 幅 的 问题 ， 这 里 不 再 展开 图 9-7 中 智能 问答 模块 和 智能 聊天 模块 部 分 的 内 容 。 阿 里 小 窄 智能 问答 模块 主要 处 理 的 常见 
问题 解答 (Frequently Asked Questions, FAQ) ， 它 使 用 的 算法 也 是 前 文中 提 到 的 注意 力 模型 。 智 能 聊天 模块 部 分 及 用 了 
1IR+Rerank+Generation 处 理 流程 和 算法 。 


对 话 管理 (Dialogue Management, DM) 的 主要 功能 是 对 输入 进行 结构 化 语义 表示 ， 根 据 上 下 文 来 管理 整个 对 话 的 状 
态 ， 并 决定 下 一 步 采 取 什 么 样 的 动作 。 阿 里 小 密 将 对 话 分 为 两 个 阶段 : 第 一 阶段 通过 多 轮 对 话 交 互 ， 利 用 NLU 收 集 相关 完成 用 
户 的 需求 ， 将 用 户 需 求 结构 化 ; 第 二 阶段 融 是 请 求 服务 阶段 。 图 9-8 融 是 阿里 小 密 的 PDM 框 避 图 实例 。 


NLU 引 擎 DM+ 引 擎 


Normallze 


Action & 
NLG 


JSGF Interpreter JSGF Interpreter 


图 9-8 PTB) RITE BIER 


9.2.2 ”日 度 对 话 系 统 


百度 依托 搜索 的 天 然 优势 也 研 友 了 相应 的 对 话 系统 。 百 度 对 话 系 统 目 标 是 实现 人 与 机 器 的 目 然 对 话 ， 百 度 的 对 话 系统 是 基于 
多 任务 、 多 领域 的 对 话 系统 。 在 百 硫 的 对 话 系统 的 以 构 中 明确 了 服务 ， 模 糊 了 算法 层 和 数据 层 。 阿 里 小 密 相 比 将 对 话 管 理 明 确 拆 
分 成 了 两 个 部 分 : 对 话 管理 和 用 户 对 话 流 管 理 。 百 度 的 机 器 人 通过 对 语系 统 中 的 分 上 功能 模块 ， 被 分 友 到 相应 的 服务 。 在 对 话 系 
统 中 ， 百 硫 共 实 现 了 3 种 类 型 的 服务 子 系统 (参照 图 9-4 典 型 的 智能 对 话 系统 ) ， 即 基于 知识 的 信息 查询 子 系统 、 可 完成 特定 任 
务 的 对 话 子 系统 以 及 开放 域 聊天 子 系统 ， 如 图 9-9 所 示 。 


图 9-9 ”百度 对 话 系 统 架 构图 


目 然 语言 


从 图 9-4 和 图 9-10 可 以 看 出 ， 两 幅 图 中 有 很 多 相似 地 方 ， 在 和 用 户 交 互 的 过 程 中 起 重要 作用 的 都 是 两 部 分 功能 
理解 (NLU) 和 自然 语言 生成 (NLG) 。 图 9-10 中 对 话 管理 模块 给 出 了 一 份 非常 详细 处 理 逻 辑 。 


领域 Ontology 意图 图 谱 
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对 话 管 理 


结构 化 信息 检索 增强 学 习 算法 


图 9-10 支持 信息 查询 与 特定 任务 完成 的 系统 架构 


百度 和 阿里 对 话机 器 人 都 把 意图 分 析 作为 对 话机 器 人 最 重要 的 组 成 部 分 。 百 度 采 用 了 3 种 方法 进行 意图 识别 : 第 一 ， 融 合 了 
知识 与 统计 的 意图 分 析 技 术 ; 第 二 ， 基 于 文法 规则 的 意图 分 析 技 术 ; 第 三 ， 基 于 语义 匹配 的 意图 分 析 近 术 。 


1) 融合 了 知识 与 统计 的 意图 分 析 技 术 


百度 面向 特定 任务 的 对 话 中 ,用户 意图 可 以 用 语义 框架 来 表示 。 语 义 框 架 包括 用 户 的 意图 以 及 权 位 (Slot) 填充 。 通 过 从 用 
尸 的 Query 中 识别 出 意图 及 槽 位 。 具 体 的 做 法 焉 是 首先 基于 已 有 的 大 规模 文本 数据 、 知 识 库 、 以 及 人 工 标 注 数 据 通 过 知识 图 谱 、 
RNN、Bi-RNN 以 及 CRF 等 算法 将 用 尸 意 图 和 权 位 的 联合 学 习 相互 融合 ， 如 表 9-4 所 示 。 


表 9-4 意图 分 析 模 块 详解 


Intent = 购买 纸尿裤 Intent = 查询 高 铁 票 
Slotl = 品牌 Slotl = 出 发 时 间 
Slot2 = 产地 Slot2 = 达到 时 间 
Slot3 = 适用 年 龄 段 Slot3 = 出 发 地 
Slot4 = 材质 Slot4 = 目的 地 


2) 基于 文法 规则 的 意图 分 析 技 术 


对 话 系统 中 意图 分 析 近 术 的 目标 残 是 将 Query 转 化 成 可 查询 的 结构 化 数据 以 及 逻辑 表达 式 ， 然 后 系统 可 以 执行 这 些 合 令 ， 如 
图 9-11 所 示 。 


Query= 提 醒 我 明天 至 下 张 晨 的 动作 电影 好 吗 ? 


' - N 
|F—>Alarm | 
A m = — — +A 


e = — — <— ——— e e e n ees i 


|Event=F_->Movie(Actor=- 张 震 ， Genre= 动 作 ) 


WA 


eee i me e e e rp oe 
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图 9-11 基于 文法 规则 的 意图 分 析 示 意图 


对 上 面 这 人 句 Query 经 过 乔 姆 斯 基文 法 规则 分 析 后 ， 最 终 产 生 了 一 个 机 器 可 以 识别 的 指令 。 在 引导 分 析 和 识别 的 过 程 中 也 使 用 
了 NLP 中 多 个 相关 技术 作为 支持 。 


3) 基于 语义 匹配 的 意图 分 析 技 术 


百度 对 话机 器 人 技术 中 引入 了 意图 图 谱 拉 术 解 决意 图 表示 、 需 求 满足 和 交互 引导 等 问题 。 意 图 图 谱 米 用 了 基于 图 结构 的 方案 
表示 用 户 意 图 以 及 各 个 图 节点 之 间 的 关联 关系 。 意 图 图 谱 中 每 个 节操 都 代表 一 个 意图 ,节操 之 间 的 边 代 表意 图 的 关系 。 例 
如 ， “阿拉斯加 六 阿 拉 斯 加 州 | 阿拉 斯 加 雪村 犬 ”这 里 “阿拉 斯 加 ”从 语义 的 角度 上 看 并 不 是 很 明确 ， 但 是 在 意图 图 谱 中 就 可 以 
通过 和 用 户 交 互 细 化 到 某 一 个 意图 图 谱 的 节点 上 ， 如 图 9-12 所 示 。 


— | 阿拉 斯 加 
阿拉 斯 加 州 


[一 一 -旅游 一 一 -一 | A- [一 一 一 宠物 -一 一” 
i | | 二 | | - | 
' a ay à EER 
| 阿拉 斯 加 美食 | | vehi | | er" aaa 
| | | | 
| | | | | | 
| | (阿拉 斯 加 怎么 加 ] ，  ( 何 拉 斯 加 雪 概 犬 | | 
阿拉 斯 加 景点 | | 入 的 美国 联邦 | 1 活 习惯 


图 9-12 ”意图 图 谱 示 意图 


9.2.3 HB WANT RHA 


斑 直 领域 或 者 被 称 封 闭 领域 的 机 器 人 ， 是 指 对 话 系 统 的 输入 和 输出 的 空间 可 能 是 有 限 的 。 这 些 机 器 人 系统 都 试图 实现 一 个 非 
党 特定 的 目标 。 技 术 支 持 或 购物 助理 都 是 封闭 领域 问题 中 最 好 的 例子 。 下 面 介 绍 一 个 在 电 商 领域 可 以 完成 推荐 导购 功能 机 器 人 的 


架构 ， 如 图 9-13 所 示 。 
闲聊 | 
对 话 系统 问答 


任务 型 


强化 学 习 
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HP “组 


e CE {m 


对 话 管理 


目 然 语言 理解 | 自然 语言 生成 
图 9-13 ”具有 推荐 导购 功能 的 机 器 人 


在 图 9-13 中 所 承载 的 信息 并 不 仅仅 是 一 张 具 有 推荐 导购 功能 的 机 器 人 ， 其 实 它 宫 括 了 前 面 介绍 的 所 有 知识 。 具 有 推荐 功能 
的 机 器 人 ， 需 要 更 多 地 考虑 用 户 行为 特征 。 从 图 上 也 可 以 看 出 整个 对 话 系统 架构 和 实现 上 的 不 易 。 它 不 仪 需 要 有 数据 方面 的 广 
持 ， 还 需要 有 工程 技术 上 的 支持 ， 更 需要 有 算法 万 面 的 突破 和 支持 ， 尤 其 是 在 上 自然 语言 处 理 算法 万 面 的 支持 。 


9.2.4 ”开放 希 域 对 话 系 统 的 染 构 


开放 领域 的 对 话 系 统 ， 因 为 用 户 不 一 定 有 了 明确 的 目标 或 意图 。 如 Twitter 这 样 的 社交 媒体 网 站 上 的 对 话 通 党 是 开放 领域 的 ， 
之 所 以 是 开放 领域 融 是 因为 他 们 可 以 谈论 任何 方向 的 任何 话题 。 无 数 的 话题 和 生成 合理 的 反应 所 需要 的 知识 规模 ， 使 得 开放 领域 
的 对 语系 统 实现 相当 困难 。 下 面 给 一 个 开放 领域 对 话 系统 的 架构 ， 如 图 9-14 所 示 。 
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图 9-14 ”开放 领域 机 器 人 架构 


微软 小 冰 是 开放 领域 聊天 的 代表 ， 它 是 微软 亚洲 院 于 2014 年 推出 的 一 款 人 工 智 能 聊天 机 器 人 。 微 软 凭 借 在 大 数据 、 目 然 语 
言语 义 分 析 、 机 器 学 习 方 面 的 技术 长 年 轮 月 地 积 罕 开 友 出 了 微软 小 冰 。 目 它 推出 到 现在 ， 微 软 小 冰 通 过 语 料 和 技术 不 断 更 新 ， 已 
经 慢 慢 开始 对 开放 领域 聊天 和 搜索 引擎 进行 了 整合 。 


93 ”本 童 小 结 
作为 对 话 系 统 算法 和 工程 开发 人 员 ， 对 本 章 内 容 都 会 非常 感 兴趣 。 从 本 章 开始 已 经 涉及 了 一 个 具体 对 话 系统 的 架构 。 本 章 内 
容 的 组 织 也 是 从 如 何 架构 一 个 一 般 性 的 对 话 系 统 开始 ， 后 续 又 详细 介绍 了 两 个 机 器 人 : 阿里 小 密 和 百度 对 话 的 架构 设计 。 并 在 中 


间 部 分 介绍 了 一 些 对 话 系统 弟 用 的 一 些 工 程 扩 术 以 及 工程 运 维 相关 的 知识 。 最 后 ， 通 过 介绍 两 种 不 同 领域 对 话 系 统 的 一 般 性 架构 
来 捉 联 所 有 对 话 系 统 架 构 设 计 共 性 知识 。 通 过 学 习 本 章 内 容 ， 可 以 使 读者 在 设计 架构 对 话 系统 时 有 一 个 全 新 的 认识 。 


第 10 草 ” 实 骂 场景 乙 一 一 一 客服 机 器 人 


前 面 的 章节 已 经 介绍 了 一 些 对 话机 器 人 常用 的 算法 、 工 程 以 及 架构 的 知识 ， 本 草 主要 介绍 一 个 实际 的 应 用 场景 客服 机 器 人 的 
架构 以 及 技术 实现 过 程 。 通 过 本 章 的 学 习 ， 可 以 清楚 地 了 解 搭建 一 个 信 单 的 客服 机 器 人 需要 哪些 资源 ， 以 及 怎样 架构 设计 一 个 客 
服 机 器 人 。 


10.1 客服 机 器 人 架构 


Gartner 最 新 的 研究 认为 ， 到 2020 年 ， 友 达 国 家 20% 的 公民 将 使 用 人 工 智 能 助手 帮助 他 们 完成 一 系列 日 剃 的 、 可 操作 的 任 


务 。 在 上 友 达 国家 ， 个 人 的 互动 与 基于 人 工 智 能 的 服务 已 经 变 得 赵 来 越 频 每 ， 虚 拟 个 人 助理 (VPA) 不 再 是 简单 地 提问 和 回答 。 到 
2022 年 ， 在 对 话机 器 人 领域 应 用 中 文 NLP 的 企业 将 超过 80% 一 一 高 于 目前 的 51%。 


在 这 个 背景 下 ，Gartner 还 预测 ，2018 年 将 有 超过 20 亿 的 人 会 通过 智能 手机 及 其 连接 的 设备 ， 使 用 会 话 Al 与 VPA、 虚 拟 客户 
助理 (VCA) 、 虚 拟 执行 助理 (VEAs) 、 聊 天 机 器 人 和 其 他 人 工 智 能 功能 的 服务 。 消 费 者 将 越 来 越 熟悉 使 用 这 些 服 务 。 在 这 样 
的 背景 下 ， 客 服 机 器 人 的 需求 也 表现 得 更 加 强势 。 


客服 机 器 人 是 指 帮 助 客服 回答 问题 提高 人 工 客 服 效 率 的 机 器 人 。 客 服 机 器 人 可 以 用 于 回答 客户 的 剃 规 、 重 复 性 的 问题 。 但 不 
是 蔡 代 ， 而 是 辅助 人 工 服 务 ， 改 变 客服 工作 的 模式 ， 进 一 步 提 高 客服 工作 效率 。 


据 调 查 ， 使 用 纯 机 器 人 完全 蔡 代 客服 的 并 不 多 ， 人 机 结合 模式 使 用 更 为 广泛 。 其 中 ， 不 满意 用 尸 在 各 模式 中 的 占 比 都 非常 
小 ,不足 1%。 而 满意 用 尸 占 比 相 牵 最 大 ， 其 中 人 机 结合 模式 的 客户 满意 度 最 高 。 


至 于 为 什么 人 机 结合 模式 的 满意 度 是 3 种 模式 中 最 高 的 ， 分 析 一 下 主要 有 以 下 几 个 原因 : 

1) 机 器 人 响应 速度 快 ， 且 可 同时 接待 多 位 客户 ， 而 且 客 户 不 需要 等 待 。 

2) 机 器 人 替代 人 工 处 理 咨询 中 的 重复 问题 ， 人 工 客服 不 易 陷 入 烦躁 情绪 ， 客 户 体验 好 。 

3) 遇 到 复杂 问题 ， 人 机 结合 模式 可 以 无 颖 切换 人 工 来 处 理 ， 顾 客体 验 不 会 中 断 。 

使 用 智能 客服 机 器 人 的 优势 也 是 很 明显 的 。 如 下 : 

1) 机 器 人 可 以 7x24 小 时 在 线 服务 ， 解 答 客户 的 问题 。 

2) 常 问 的 问题 ， 重 复 的 问题 都 可 以 交 给 机 器 人 来 自动 回复 ， 省 去 很 多 重复 的 输入 及 复制 粘贴 。 


3) 可 以 辅助 人 工 客服 ， 在 人 工 服务 的 时 候 ， 推 荐 回复 内 容 ， 并 学 习 人 工 客 服 的 回复 内 容 。 机 器 学 习 到 的 人 工 回 复 内 容 ， 可 
以 收入 机 器 人 的 知识 库 供 后 续 使 用 。 


10.1.1 功能 需求 


智能 客服 机 器 人 有 很 多 优势 ， 但 它 还 处 于 初步 友 展 阶 段 。 现 阶段 客服 机 器 人 还 没有 完全 取代 人 工 客服 ， 仍 在 辅助 人 工 解决 问 
题 。 技 术 人 员 还 将 客服 机 器 人 适当 地 加 入 推荐 和 导购 领域 ， 比 如 前 文中 提 到 的 阿里 小 蜜 机器人。 这 样 客服 机 器 人 的 作用 残 不 仅仅 
出 现在 售后 阶段 ， 而 是 开始 出 现在 用 于 引导 用 户 的 购买 和 消费 活动 中 。 下 面 瓯 具体 介绍 一 个 客服 机 器 人 的 殿 构 ， 这 个 客服 机 器 人 
包括 了 推荐 和 导购 功能 ， 当 然 也 包括 了 FAQ 机 器 人 。 其 实 这 些 机 器 人 都 是 基于 任务 型 的 对 话 系统 。 这 里 选 了 招聘 领域 场景 作为 
讲解 对 话 系统 的 切入 点 ， 具 体 分 析 了 一 个 基于 招聘 领域 的 对 话 系 统 的 架构 ， 其 絮 构 如 图 10-1 所 示 。 


VCA 
m 一 对话 交互 内 容 一 ~<— Query 一 
ae] pete [|e 


图 10-1 客服 对 话 系 统 功能 需求 分 析 


图 10-1 中 摘 述 了 整个 VCA 系 统 功能 的 需求 。 整 个 系统 包含 了 不 同 的 机 器 人 ， 这 些 机 器 人 通过 一 个 对 话 管理 系统 (Dialog 
Management) 进行 统一 省 理 。 对 话 省 理 系统 可 以 将 不 同 问题 根据 系统 中 每 一 个 机 器 人 的 处 理 能 力 ， 分 友 给 不 同 的 机 器 人 。 每 
一 个 机 器 人 都 可 独立 成 为 一 个 系统 ， 它 们 具有 不 同 功 能 ,会 产生 相应 的 回复 。DM 通 过 收集 每 一 个 机 器 人 产生 的 回复 ， 对 回复 进 
行 排序 后 返回 。 整 个 客服 系统 可 以 包含 多 个 小 的 对 话 系 统 ， 比 如 FAQ Bot 的 主要 功能 束 是 负责 FAQ 的 处 理 ; 售后 Bot 的 主要 负责 
售后 应 用 场景 下 的 处 理 ; 售 前 导购 Bot 叉 持 场景 覆 兰 职位 推荐 、 招 聘 问 答 、 观 点 回复 等 ; 内 聊 Bot 主 要 文 持 的 场景 应 该 是 客户 的 
PUMA, Other Bot 表 示 一 种 扩展 ， 它 可 能 是 基于 知识 图 说 的 对 话 系 统 ， 也 可 能 是 基于 某 种 技术 解决 某 一 类 特定 问题 的 专属 对 
话 系 统 。 


此 外 ， 在 设计 客服 对 话 系统 时 需要 考虑 以 下 几 氮 : 


1) 时 间 特 性 要 求 : 系统 极限 响应 时 间 到 底 是 多 少 ? 如 果 是 以 微服 务 的 形式 调用 ， 忌 的 时 间 被 分 摊 到 每 一 步 的 时 间 消 耗 应 该 


EZD, 
2) 灵活 性 : 系统 的 各 个 模块 应 该 在 可 控 的 状态 内 ， 每 一 个 模块 可 插 拔 ， 保 证 线 上 质量 。 
3) REE: 内 外 网 隔离， 注意 网 络 完全 、 系 统 安 全 、 用 刻 安 全 、 数 据 安全 。 
4) 可 扩展 性 : 系统 的 各 个 模块 支持 扩展 、 跨 平台 、 多 种 语言 、 算 法 模型 灵活 切换 。 
5) 可 靠 性 : 系统 和 集群 稳定 运行 ， 主 要 的 集群 实现 双 机 热 备 、 灾 备 ， 当 单个 节点 发 生 故 障 可 以 迅速 切换 。 


6) 可 用 性 : 系统 的 各 项 功能 可 用 ， 系 统 上 线 必 须 符合 一 定 的 正确 率 。 


10.1.2 系统 远 辑 染 构 图 


这 里 给 出 一 个 客服 机 器 人 的 系统 逻辑 以 构图 ， 如 图 10-2 所 示 。 
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图 10-2 系统 逻辑 架构 图 
整个 系统 分 为 6 个 部 分 ， 包 括 数据 服务 、 对 话 理解 、 对 话 场景 、 中 控 中 心 、 服 务 治理 和 监控 系统 。 
系统 采用 微服 务 的 方式 进行 交互 ， 每 个 服务 可 以 有 多 个 实例 ， 避 免 单 点 故障 的 产生 。 


底层 服务 框架 : 采用 Dubbo 和 Spring 框架 ， 所 有 的 服务 均 是 基于 这 两 个 框架 来 开发 的 ， 以 及 实现 服务 的 发 现 和 访问 ， 从 而 


降低 服务 耦合 ， 提 高 可 扩展 性 。 
‘Bot CC 服务 : 是 一 个 中 控 服 务 。 它 本 身 并 无 状态 ， 多 用 于 请 求 任务 的 分 发 以 及 控制 相应 会 话 处 理 流程 的 流转 。 


- 各 种 Bot 服 务 : 包括 闲聊 Bot、 基 于 任务 的 Bot、QA Bot. FAQ Bot 等 ， 各 种 不 同类 型 的 Bot 会 负责 各 自 相 应 的 会 话 逻 辑 和 状 
态 的 维护 管理 。 
. NLP 服务 : 包括 NLU 服 务 ， 意 图 识别 服务 以 及 语义 相似 度 计 和 工 服 务 ， 负 责 各 种 Bot 里 面 所 需要 的 和 NLP 有 关 的 相应 计算 和 


从 夫 工作 s 


存储 /缓存 : Redis 是 缓存 服务 ， 主 要 用 来 存储 和 维护 实时 会 话 状态 ，MongoDB 主要 用 来 持久 化 会 话 数据 ，MySQL 主 要 用 来 
存储 系统 和 服务 的 各 种 配置 信息 。 


10.2 客服 机 器 人 设计 


客服 机 器 人 的 设计 与 开 友 应 该 和 其 他 应 用 软件 设计 开 友 一 样 ， 遵 循 应 用 软件 设计 开 友 流程 。 在 设计 开 上 友 周 期 上 ， 客 服 机 器 人 
需要 考虑 算法 设计 以 及 算法 模型 的 调 优 的 时 间 和 周期 ， 所 以 客服 机 器 人 的 具体 开 友 沅 程 与 一 般 的 应 用 软件 开 友 稍 有 区 别 ， 需 要 在 
设计 阶段 考虑 到 模型 训练 和 模型 调 优 的 时 间 ， 在 软件 结果 的 评测 过 程 中 也 需要 考虑 不 同 算法 产生 的 不 同 结果 。 


根据 上 面 介 绍 的 一 个 可 用 客服 机 器 人 的 功能 架构 和 逻辑 架构 ， 在 客服 机 器 人 比较 重要 的 几 个 功能 模块 其 实 是 FAQ Bot、 售 前 
导购 Bot、 售 后 Bot、 闲 聊 Bot (Chit-Chat Bot) ， 下 面 分 别 讲 一 下 。 


10.2.1 FAQ 的 设计 


这 里 给 出 了 腾讯 在 FAQ 的 一 个 设计 方案 ,给 出 这 个 设计 方案 的 目的 是 因为 该 设计 方案 中 体现 了 设计 FAQ 可 以 想到 的 所 有 应 
该 注意 的 地 万 。 按 照 这 个 设计 方案 是 可 以 设计 一 个 专属 的 FAQ 对 话机 器 人 的 。FAQ 问 答 是 基于 业务 问答 对 组 成 的 问答 库 进 行 检 
过 匹配 。 其 中 FAQ 间 题 集 包含 了 多 个 相似 文法 与 用 尸 问 题 去 匹配 。 预 处 理 阶段 会 对 文本 进行 纠 错 处 理 、 文 本 标准 化 处 理 和 一 些 
底层 文本 NLP 特 征 的 抽取 。 召 回 阶 段 会 利用 检索 技术 或 者 其 他 方式 召回 若干 个 候选 问题 集 ， 最 后 的 匹配 阶段 可 以 通过 各 种 模型 进 
行 匹 配 打 分 并 返回 分 值 最 高 的 结果 。 在 整个 设计 方案 中 ， 考 虑 到 了 冷 局 动 的 解决 方案 ， 也 考虑 到 了 深度 模型 、 知 识 图 谱 模 型 以 及 
拒 识 模块 在 整个 方案 中 的 应 用 ， 如 图 10-3 所 示 。 


NLP Process: 对 Query 进 行 预 处 理 ， 抽 取 文 本 NLP 特 征 


文本 特征 提取 


FAQ 问 题 集 


Retrieval: 从 问题 索引 中 召回 候选 集 


Query 改 写 倒 排 检索 /BM25 es 


Matching: 计算 Query 与 问 句 相似 度 S(q, q) 并 排序 


冷 启动 匹配 模型 | | 深度 匹配 模型 知识 图 谱 匹配 拒 识 模块 


图 10-3 FAQ 的 设计 方案 


ooo 


当然 我 们 也 可 以 把 上 面 的 问题 简化 ， 做 一 个 极 简 的 FAQ 客 服 机 器 人 的 设计 流程 。 在 下 面 这 个 设计 方案 中 ， 有 询问 ， 有 答 
复 ， 在 逻辑 上 完全 是 一 个 闭环 。FAQ 的 核心 是 问题 对 匹配 (QQ Match) 的 设计 与 实现 。QQ Match 的 计算 方法 有 很 多 ， 比 如 
机 器 学 习 的 方法 ， 也 可 以 利用 深度 学 习 的 一 尝 相 关 算法 。 每 一 个 标准 的 问题 和 一 个 标准 答案 都 可 以 组 成 一 个 问答 对 。 如 果 找 出 和 
标准 问题 相似 的 问题 ， 都 可 以 匹配 到 标准 回复 并 给 予 回复 。 在 下 面 FAQ 中 有 一 个 对 话 理解 的 模块 ， 这 个 模块 负责 提取 对 话 文 本 
中 的 NLP 特 征 。 如 图 10-4 所 示 。 


“sessionld” : “facdd40 b-04c5-4f48-b299- 


Ce | “respose” : “我 们 的 人 
7 ae _ i SDOUAP Ree tee ee ee 工 服 务 时 间 为 9:00 到 
` platform” : “androld 24:00”， 节 假日 正常 上 


班 ， 请 氮 击 链接 [link 


和 , > Url:/respose4.json 
Uri:/ask4 json å params: {“custom1”; 
params: { “custom1” : Query ape p” 

(13 PEE 5 
F “sessionld” : “facdd40” 
| 
| 


“query” : “如何 联系 品 js= “ZRG0;” JA TIRS 
RAZR?” } | [Aink] EU Hy +--+) 


DC 1 
(Dialogue Controller) 7 


Final Ranker 


| 
| 
Post Process 


图 10-4 FAQ 的 极 简 设 计 方 案 


10.2.2 导购 机 器 人 的 设计 


前 文 介绍 了 客服 机 器 人 中 一 个 比较 大 的 功能 模块 一 一 FAQ 模 块 。 从 功能 和 拉 术 的 角度 分 析 ，FAQ 模 块 在 客服 机 器 人 中 还 是 
比较 基础 且 音 用 的 模块 。 首 先 ， 它 是 以 问答 导向 的 交互 过 程 ， 其 次 ， 从 功能 实现 上 来 讲 ， 通 过 单 轮 对 话 融 可 以 完成 整个 对 话 任 
务 ; 再 次 ， 从 技术 实现 角度 上 讲 ，FAQ 模 块 略 显 简单 ; 最 后 ， 从 业务 价值 上 讲 ，FAQ 一 般 处 理 的 都 是 经 常 性 出 现 的 问题 ， 这 些 
问题 都 是 被 动 型 的 。 导 购 机 器 人 更 侧重 于 先 友 性 ， 它 的 业务 价值 应 该 高 于 FAQ 和 售后 机 器 人 。 那 么 为 什么 需要 在 对 话 系统 中 应 
用 个 性 化 推荐 呢 ? 因 为 对 话 交 互 是 有 利于 信息 获取 的 ， 但 它 却 不 利于 信息 的 展现 ， 在 对 话 交 互 过 程 中 需要 更 细 燃 度 的 个 性 化 。 


根据 这 个 思路 是 不 是 只 要 借鉴 一 下 推荐 系统 的 设计 和 实现 就 可 以 呢 ? 答案 是 不 行 的 。 因 为 传统 的 推荐 系统 多 依赖 于 一 些 隐 式 
Rim, W: 浏览 、 扣 击 、 购 买 、 收 藏 、 评 论 等 用 户 行 为 ， 在 计算 过 程 中 不 考虑 或 者 很 少 考虑 到 时 | 介 、 地 点 、 场 景 、 情 绪 、 活 动 状 
人 态 等 上 下 文 信息 。 问 题 建 模 也 比较 死板 ， 可 以 忌 结 为 “F (User, Item) =?” 或 者 “F (Context, User, Item) =?” 两 种 模 
式 。 而 在 对 话 交 互 的 推荐 系统 中 ， 它 会 结合 更 丰富 的 信息 ， 包 括 显 式 反 馈 ， 它 还 需要 更 多 地 考虑 上 下 文 ， 如 : 时 间 ( 早 中 晚 、 星 


期 、 月 份 ) 、 地 点 、 情 绪 环 境 等 信息 。 通 过 综合 上 面 介绍 的 这 些 信息 ， 完 成 交互 并 最 终 给 用 户 完 成 一 次 售 前 的 导购 信息 。 


在 导购 机 器 人 的 设计 过 程 中 应 该 遵循 交互 推荐 的 原则 。 双 向 信息 交换 ， 商 家 利用 信息 换取 用 户 偏 好 。 可 以 通过 达 代 过 滤 的 万 
式 实现 ， 即 推荐 一 一 交互 一 一 下 推荐 。 基 本 流程 是 开始 没有 任何 限制 ， 然 后 在 没有 满足 终止 条 件 前 ， 基 于 限制 做 一 次 推荐 。 第 
二 步 ， 选 择 一 次 交互 参数 ， 需 要 交互 什么 内 容 ， 然 后 生成 用 尸 回 复 ， 经 过 语义 理解 友 现 一 个 新 的 限制 ， 最 后 根据 新 的 限制 进行 结 


ATMA FA. 


10.2.3 ”实例 分 析 


上 面 介绍 的 都 是 通用 的 FAQ 的 一 些 设计 思想 。 这 里 给 出 一 个 具体 应 用 场景 ， 即 FAQ 在 招聘 行业 中 的 使 用 。 比 如 ， 某 招聘 网 
站 目前 每 日 会 收 到 500 条 左右 用 尸 在 线 意见 有 反馈， 反馈 完 以 后 用 户 需 要 等 待 两 个 工作 日 内 进行 处 理 ， 而 且 每 日 会 有 500 条 左右 的 
数据 。 上 反馈 集中 人 在 认证 问题 、 简 历 问 题 、 职 业 测 评 问题 、 搜 索 推 荐 问题 等 ， 在 反馈 的 用 户 问 题 中 可 以 找到 共同 点 ， 造 成 客服 重复 
工作 ， 其 次 ， 客 服 无 法 实时 解决 客户 问题 ， 也 会 给 用 户 市 来 等 待 处 理 时 间 ， 造 成 用 尸体 验 不 佳 。 采 用 客服 机 器 人 实时 在 线 为 用 户 
解决 问题 ， 一 方面 提升 用 户 体验 ， 另 一 方面 也 为 客服 提升 效率 来 减少 人 力 成 本 ， 让 一 部 分 人 力 释 放出 来 为 用 户 提供 一 对 一 的 在 续 
服务 。 它 的 作用 如 下 : 


1) 提升 用 户 体 验 。 机 器 人 能 实时 解答 用 户 问 题 ， 用 户 无 须 等 待 。 
2) 减少 人 力 成 本 。 减 少 客服 劳动 工作 量 ,， 减少 人 力 成 本 。 


3) 提升 运营 效率 。 打 通 工 单 流转 通道 在 线形 成 闭环 ， 实 现 对 用 户 问 题 的 快速 响应 。 


这 里 给 出 一 个 系统 的 架构 设计 ， 如 图 10-5 所 示 。 


服务 层 


对 话 平 合 


对 话 训 | 练 平 合 yr 


知识 库 向 识 库 构 建 维护 乎 合 基础 层 


图 10-5 ”对 话机 器 人 的 架构 设计 


系统 主要 分 为 服务 层 、 对 话 层 和 基础 层 。 


服务 层 为 用 户 提供 问答 类 服务 。 为 用 户 提供 : 


- 问答 类 服务 (业务 、 产 品 、 流 程 咨询 ) 。 


任务 类 服务 : 推荐 简历 、 意 向 沟通 等 。 


NZ 
A 


NZ 
A 


| 


对 话 应 用 平台 : NLU、NLG 和 对 话 管 理 等 模块 。 


` 对 话 训练 维护 平台 : 对 话 维 护 、 语 料 收 集训 练 、 楷 位 管理 等 模块 。 方 便 管 理 员 内 部 


基础 层 : 主要 为 知识 库 和 服务 接口 。 
. 知识 库 : 管理 员 针 对 服务 层 各 项 服务 构建 的 知识 图 谱 ，QA 对 等 。 
. 服务 接口 : 针对 服务 层 中 的 各 项 服务 与 管理 员 内 外 各 平台 服务 对 接 。 


-知识 库 构 建 维护 平台 : 用 知识 图 谱 、QA 对 创建 维护 平台 ， 方 便 管 理 员 内 部 进 


根据 上 面 的 架构 可 以 针对 一 些 真 实 对 话 场 景 设计 话 术 、 意 图 及 回复 ， 如 图 10-6 所 示 。 


您 好 ， 我 对 这 个 职位 很 感 兴趣 是 什么 原因 呢 ? 
希望 能 有 进一步 的 沟通 ， 谢谢! 


= 聘 过 来 的 时 候 是 在 量 产 工 
， 我 的 职位 是 设备 主管， 但 
你 好 ， 请 问 什 么 原因 看 湖州 长 © 是 沼 我 的 厂 长 被 调 到 一 个 试制 


兴 的 机 会 呢 工厂 去 了 ， 她 把 我 也 要 过 去 了 ， 
试制 工厂 自动 化 程度 很 低 而 且 
我 觉得 岗位 描述 比较 适合 我 ， 没有 量 产 项 目 ， 比 较 闲 


而 且 吉 利 现 在 发 展 的 很 好 好 的 ， 简 历 我 已 经 推荐 过 去 


了 ，20 号 本 周 六 在 南京 有 专 
好 的 ， 你 目前 薪资 和 期 望 薪资 Q 场 招聘 ， 你 周 六 方便 有 时 间 
在 多 少 ? 过 去 参加 吗 


目前 26~27W 每 年 有 这 个 职位 的 招聘 吗 ? 


希望 薪资 可 以 谈 iw ©@ 
好 的 ， 那 我 先 推荐 你 的 简历 到 用 @ | 

人 部 门 我 想 问 一 下 待遇 您 知道 吗 ? 

好 的 谢谢 涨幅 一 般 控制 在 百 分 之 二 十 到 © 


三 十 ， 最 终 定 薪 资 还 是 得 看 面 
试 和 领导 聊 的 结果 


你 是 7 月 份 就 去 上 海 工作 至 今 吗 @ | 
& 有 没有 藉 资 范围 呢 ? 


薪资 我 刚 问 了 下 ， 因 为 你 7 月 
工作 变动 ，9 月 又 看 机 会 ， 薪 
WIZ AREER AAR, KIEA 


是 的 ， 但 是 想 换 是 有 原因 的 ， 
如 有 果 需 要 可 以 解释 一 下 


图 10-6 ”真实 场景 下 话 术 举 例 


从 图 10-6 中 可 以 看 出 图 10-7 框 内 所 示 话 术 。 


了 对话 的 训练 和 管理 。 


行 知 识 库 的 创建 。 


哦 哦 ， 知 道 了 


但 平台 发 展 目前 还 是 不 错 ， 
湖州 对 于 上 海 消费 来 说 也 
低 一 些 
别 ， 把 面试 地 点 发 给 我 一 下 吧 
到 时 候 的 面试 流程 是 什么 PEAY? 
有 什么 注意 事项 吗 


好 的 A HR 这 边 还 在 统计 
人 数 ， 地 点 还 没 敲 定 ， 晚 
点 我 再 发 你 

HR 那 边 同意 我 可 以 去 面试 了 吗 
面试 流程 就 正常 的 流程 ， 先 
自我 介绍 ， 后 领导 提问 
可 以 的 
简历 OK 的 


到 南 泵 联系 你 吗 ? 


具体 时 间 地 点 明天 我 发 你 ， 
包含 联系 人 ， 地 点 基本 在 
南 束 站 附近 


好 的 


您 好 ， 我 对 这 个 职位 很 感 兴趣 ， 
DES 


能 有 进一步 的 沟通 ， 谢 谢 ! 


您 好 ， 请 问 什么 原因 看 湖州 长 
兴 的 机 会 呢 


我 党 得 岗位 描述 比较 适合 我 ， 
而 且 言 利 现在 发 展 的 很 好 


好 的 ， 你 目前 薪资 和 期 望 薪资 
在 好 少 ? 
目前 26~27W 每 年 
希望 薪资 可 以 谈 
好 的 ， 那 我 先 推荐 你 的 简历 到 用 
人 部 门 
好 的 谢谢 


你 是 7 月 份 就 去 上 海 工作 至 今 吗 & 


是 的 ， 但 是 想 换 是 有 原因 的 ， 
如 果 需 要 可 以 解释 一 下 


根据 简历 发 问 


是 什么 原因 呢 ? 


我 应 聘 过 来 的 时 候 是 在 量 产 工 
三 ， 我 的 职位 是 设备 主管 ， 但 
是 招 我 的 三 长 被 调 到 一 个 试制 
工厂 去 了 ， 她 把 我 也 要 过 去 了 ， 
试制 工厂 目 动 化 程度 很 低 而 且 
没有 量 产 项 目 ， 比 较 闲 

好 的 ， 简 历 我 已 经 推荐 过 去 
了 ，20 号 本 周 六 在 南 束 有 专 
场 招聘 ， 你 周 六 方便 有 时 间 
过 去 参加 吗 


有 这 个 职位 的 招聘 吗 ? 


我 想 问 一 下 待遇 您 知道 吗 ? 回 链 求职 者 咨询 


涨幅 一 般 控制 在 百 分 之 二 十 到 

二 十 ,最 终 定 薪资 还 是 得 看 面 

试 和 领导 聊 的 结果 

& 有 没有 薪资 范围 呢 ? 
攻 资 我 刚 问 了 下 ， 因 为 你 7 月 
工作 变动 ，9 月 又 看 机 会 ,项 
资 应 该 只 能 平 棵 去 谈 ” 涨 幅 


不 大 


图 10-7 ”真实 场景 下 的 话 术 举例 2 


根据 上 面 真 实 场景 下 的 话 术 举例 ， 可 以 得 到 一 个 基本 的 设计 方案 。 如 图 10-8 所 示 。 


不 同 场景 业务 应 用 Daj 


Ap Ie FT tl 意图 识别 目 动 发 问 技术 层 


向 历 职位 诊断 
等 功能 


MU 


逻辑 规则 模型 数据 服务 


回答 求职 者 咨询 ， 理 解 求职 者 回答 


图 10-8 基本 设计 方案 


10.3 SEJA 


本 草 主要 介绍 了 一 个 客服 机 器 人 实例 。 首 先 ， 介 绍 了 行业 内 关于 一 个 客服 机 器 人 的 系统 架构 。 其 次 ， 通 过 侧重 介绍 客服 机 器 
人 中 FAQ 和 和 售 前 导购 客服 机 器 人 的 设计 ， 完 成 对 整个 客服 机 器 人 架构 的 讲解 ， 并 讲 清楚 架构 和 内 部 一 些 重 要 流程 的 设计 ， 对 后 


续 快 速 设计 与 实现 一 个 简单 客服 对 话机 器 人 起 着 至 天 重要 的 作用 |。 


第 11 章 实战 场景 之 二 一 一 开放 域 的 QA 问答 


早期 的 对 话机 器 人 一 般 采 取 的 是 基于 规则 的 开放 问答 系统 ， 它 的 背后 是 称 之 为 专家 系统 的 语义 模板 ， 根 据 模板 匹配 的 范式 来 


寻找 最 佳 答案 。 


近年 来 ， 问 答 系 统 的 构造 也 从 传统 的 基于 模板 、 规 则 的 万 法 转换 为 基于 知识 图 谱 的 方法 。 它 会 利用 检索 、 风 辑 推理 等 方法 配 
合 查 找 用 尸 问 题 的 答案 。 它 局 限于 知识 图 谱 的 规模 ， 当 仙 到 在 知识 图 详 范 围 外 的 问题 时 ， 会 使 得 答案 的 稳定 性 骤然 下 降 。 


随 着 深度 学 习 的 火热 ， 端 到 并 的 问答 系统 越 来 越 受 到 青睐 ， 通 过 对 问题 的 理解 、 信 息 检索 、 答 案 的 抽取 、 结 合 知 识 图 谱 ， 可 
以 做 到 更 加 自然 地 回答 用 户 的 问题 。 


接 下 来 会 从 间 答 机 器 人 的 框架 、 技 术 模 块 和 一 个 实际 通过 使 用 BERT 模 型 的 案例 ， 进 行 阅读 理解 的 开源 项 目 ， 来 介绍 问答 机 
器 人 的 基本 概况 。 


11.1 开放 领域 问答 机 器 人 的 以 构 


对 于 一 个 对 话 系统 来 说 ， 最 常 使 用 的 一 个 架构 是 由 用 户 输入 对 话 。 包 含 对 话 理解 (Nature Language Understanding) 、 
话题 退 踪 (State Tracker) . ARE (Data Base) 、 对 话 策 略 (Dialog Policy) 、 对 话 生成 (Nature Language 
Generative) 5 个 部 分 ， 如 图 11-1 所 示 。 


用 尸首 先 通过 语音 传递 过 来 一 个 对 话 输 入 (需要 语音 识别 技术 辅助 完成 ) 或 者 直接 输入 一 段 文 字 。 对 话 理解 负责 把 用 户 的 问 
题 进行 解析 ， 包 括 用 户 对 话 的 意图 以 及 需要 提取 的 特征 关键 词 。 话 题 追 路 负责 判断 在 整个 对 话 流程 中 ， 现 阶段 对 话 处 于 哪个 位 
置 ， 同 时 把 信息 传送 给 知识 图 谱 和 对 话 策 略 。 知 识 图 谱 通 过 对 话 的 解析 ， 提 供给 对 话 中 需要 知识 解析 的 部 分 ， 并 反馈 答案 供 对 话 
策略 判 岂 。 对 话 策 略 负责 根据 解析 的 用 己 意 图 及 知识 解析 的 答案 根据 对 话 集 略 选择 回复 什么 样 的 信息 给 用 性。 然后 按照 语法 生成 
对 话 并 把 问题 的 回复 组 合成 文字 管 复 有 反馈 给 用 性， 让 用 尸 知晓 所 问 问题 的 答案 是 什么 。 这 样 一 套 简 单 的 架构 基本 上 就 满足 了 用 户 


问答 的 需求 。 
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图 11-1 通用 问答 的 基本 架构 


如 果 把 人 机 对 话 看 作 是 一 个 决策 最 优化 的 选择 ， 那 么 整个 对 话 过 程 符合 一 个 马尔 可 夫 决 策 过 程 (Markov Decision 
Process, MDP) 。 


一 个 马尔 可 夫 决 策 过 程 可 以 定义 为 : 给 出 一 个 状态 s， 然 后 根据 全 局 策略 Tt 选择 一 个 必要 的 actiona， 在 actiona 后 得 到 一 个 
奖励 y， 并 且 得 到 了 一 个 新 的 状态 s'， 持 续 这 样 的 循环 直到 阶段 结束 。 


对 话 学 习 的 目的 ， 其 实 束 是 找到 一 个 最 佳 的 策略 nm， 使 获得 的 期 望 达到 最 大 。 人 机 对 话 一 般 可 以 分 为 多 种 不 同 的 情形 ， 而 在 
不 同 的 情形 下 ，M DP 也 是 不 一 样 的 。 


人 工 对 话机 器 人 根据 对 话 的 场景 不 同 ， 一 般 可 以 分 为 3 种 不 同 的 对 话 系统 ， 如 表 11-1 所 示 。 


基于 阅读 理解 的 QA: 基于 阅读 理解 的 QA 可 以 从 人 们 准备 好 的 知识 图 谱 或 疏 取 的 网 页 文档 中 得 到 丰富 的 知识 ， 并 给 出 问题 


的 答案 。 例 如 : IBM-Watson. 
` 任务 型 对 话 系 统 : 根据 不 同 的 重 直 领域 场景 ， 帮 助 用 户 完 成 订购 火车 票 、 预 订 旅 店 、 打 车 、 订 购 外 燃 等 任务 。 
` 聊天 机 器 人 : 可 以 在 生活 中 以 朋友 或 者 伙伴 的 角色 ， 与 人 进行 会 话 和 交谈 。 


表 11-1 3 种 最 常见 的 人 机 对 话 系 统 


基于 阅读 理解 的 QA | 理解 用 户 的 意图 (Belief State) 明确 用 户 的 问题 和 答案 


根据 对 话 做 出 的 action 
和 关键 词 提取 


任务 型 对 话 系 统 理解 用 户 的 目的 (Belief State ) 


11.2 ”开放 领域 问答 机 器 人 的 开发 流程 和 方案 


扩充 通过 人 机 对 话 的 框架 ， 使 得 系统 染 构 更 加 接近 我 们 的 实际 操作 ， 如 图 11-2 所 示 。 
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图 11-2 人 机 对 话 系 统 框 架 结 构 的 细致 拆 解 
人 机 对 话 框架 模块 具体 说 明 : 


用 户 问 题 模块 : 用 尸 的 问题 一 般 连 接着 一 些 相关 的 上 下 文 语 境 。 在 输入 用 己 问 题 的 时 候 ， 应 该 考虑 到 上 下 文 ， 特 别 是 上 下 文 


语 境 是 用 户 对 话 过 程 的 历史 。 


预 处 理 模 块 : 预 处 理 模块 主要 是 帮助 机 器 在 进行 阅读 理解 之 前 ， 把 改写 后 的 标准 化 文本 提供 给 后 面 的 NLU。 需 要 的 技术 一 


般 会 包括 中 文 分 词 、 词 性 标注 、 命 名 实体 识别 、 拼 写 检查 纠 错 、 乱 码 处 理 、 标 点 及 颜 字 符 处 理 、 指 代 消 解 、 长 句 改写 、 间 人 句 改 


与 。 


al 


意图 识别 : 在 预 处 理 后 ， 需 要 判断 所 说 的 话 是 否 是 我 们 能 够 确定 的 单一 意图 ， 这 时 我 们 需要 用 文本 分 类 的 万 法 进行 识别 和 确 


语义 检索 和 匹配 : 利用 Elastic Search 检 索 的 方式 和 深度 语义 匹配 模型 并 行 ， 查 找 我 们 需要 的 问题 答案 候选 。 


1) Elastic Search 是 一 个 基于 Lucene 的 高 可 用 分 布 式 开源 搜索 引擎 。 在 效率 上 要 比 其 他 的 搜索 引擎 更 高 ， 例 如 Solr。ES 会 


根据 知识 库 建 立 数据 厅 3 引 ， 同 时 也 会 为 分 类 和 重点 内 容 做 索引 。ES 的 分 词 选 项 中 可 以 配置 一 些 专 有 名 词 或 同义词 ， 默 认 及 用 
TFIDF 来 查询 关键 词 。 


2) 深度 语义 匹配 : 我 们 利用 QA 相似 度 的 方法 来 判断 问题 和 答案 的 相似 性 。 在 Question Answering 的 问题 中 ， 问 题 


Question 用 文本 X 来 表示 ， 答 案 Answer 用 文本 Y 来 表示 。 我 们 利用 李 生 网 络 Siamese CBOW 计 算 两 个 不 同文 本 的 语义 相似 度 。 
对 词 向 量 进行 预 训练 ， 然 后 用 求 和 取 平 均 的 方式 来 表示 句 向 量 ， 并 对 标准 问 和 相似 问 进行 训练 ， 添 加 负 有 采样， 损失 函数 为 
Contrastive Loss， 让 正 样 本 之 间 的 句 向 量 表征 尽量 相似 。 预 先 算出 语 料 的 所 有 人 句 向 量 表征 ， 再 将 用 户 问 题 通 过 模型 转化 成 句 向 


= 
Æ, 


搜索 语 料 里 最 相似 的 若干 个 句 同 量 作为 候选 答案 列表 ， 如 图 11-3 所 示 。 
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图 11-3 ”深度 语义 匹配 Siamese CROW È 4 W 2 


挛 生 网 络 ， 两 边 的 模型 除了 CBOW 以 外 ， 也 可 以 支持 LSTM、RNN、CNN。 图 11-4 是 2017 年 Kaggle 问 答 比 赛 的 冠军 方 
案 ， 该 方案 其 实 是 在 李 生 网 络 的 模型 框架 下 用 了 曼哈顿 LSTM 模 型 ， 从 而 达到 了 一 个 最 优 效 果 ，。 


Prediction 


exp(-IA ee)|) 


LSTM LSTM 


Embedding 
(Not Trainable) 


Embedding 
(Not Trainable) 


[0, 0, 0, 0, +48, 352, 922, 877, 512] = [0, 0, 0, 0, --- 1889, 101, 95, 809, 912 


图 11-4 2017 Kaggle 冠 军 解 决 方案 : Siamese MaLSTM 
AMER: 负责 判断 在 整个 对 话 流程 中 ， 现 阶段 对 话 处 于 哪个 位 置 ， 同 时 把 信息 传送 给 知识 图 谱 和 对 话 策 略 判 断 。 
ARABS: 知识 图 谱 的 内 容 在 上 面 草 节 里 面 已 经 有 了 比较 细致 的 概括 ， 这 里 不 再 莹 述 。 


对 话 策 略 : 负责 根据 解析 的 用 户 意 图 及 知识 解析 的 管 案 根 据 对 话 集 略 选择 回复 什么 样 的 信息 给 用 尸 。 然 后 按照 语法 生成 对 话 
FAC MNES ASKS SS Rint, LAP RGR ETA. 


候选 答案 排序 : 通过 率 引 可 以 得 到 奋 干 个 答案 ， 将 这 各 干 个 答案 合并 去 除 重 复 的 答案 之 后 ， 融 进入 排序 模块 。 接 下 来 将 详细 
介绍 所 采用 的 深度 学 习 排 序 算法 。 


1) 合适 的 候选 集合 去 重 后 会 进入 一 个 排序 模块 ， 首 先 做 分 词 ， 每 一 个 词 向 量 的 维度 距 阵 残 是 gentence Matrix 这 个 和 矩阵 的 
遍 度 。 一 列 其 实 焉 是 一 个 单词 的 Word Embedding， 然 后 把 每 一 个 单词 的 Word Embedding 拼 接 成 所 需要 的 Sentence 
Matrix。 


2) Sentence Matrix 出 来 之 后 ， 会 经 过 好 几 个 过 滤器 去 提取 特征 ， 并 用 Tri-Gram 来 提取 。 把 这 些 特征 提取 之 后 拼接 在 一 
起 ， 有 多 个 Filter 的 话 就 会 生成 多 个 Feature Maps。 多 个 卷 积 Feature Maps 提 取 好 之 后 ， 会 经 过 Pooling 层 ， 把 每 个 Feature 
Maps 做 Pooling 后 ， 再 把 Pooling 拼 接 到 一 起 。 中 间 看 到 的 Similarity Matching 有 个 和 矩阵 M。 和 矩阵 M 是 在 模型 里 通过 参数 训练 
得 到 的 ，Xd 是 用 户 匹 配 的 问题 ，Xq 是 用 户 问 题 经 过 Pooling 后 提取 的 特征 。 


3) 通过 Xd*M*Xo 得 到 Xsim， 得 到 Join Layer。 过 了 Join Layer 之 后 ， 最 后 那 层 是 隐 层 ， 也 是 一 个 MLP 多 层 感 知 机， 最 后 经 


过 Softmax 就 会 得 到 答案 。 


4) 排序 打分 方案 : 打分 方案 主要 分 5 级 ，S、A、B、C、D。S= 完 全 匹配 ，A= 非 常 相关 ，B= 相 关 ，C、D 基 本 上 不 怎么 相 
天 。 排 序 打分 模型 支持 对 Pointwise 和 Pairwise 方 法 进行 训练 。 假 设 只 是 Pointwise， 就 看 用 户 的 问题 跟 匹 配 的 问 句 是 否 相 关 。 如 
果 是 Pairwise， 就 看 用 户 匹 配 的 两 个 问题 ， 针 对 用 户 的 Query 到 放 哪 个 更 加 相关 。 


情感 分 析 与 用 尸 男 像 反 饥 推荐 : 这 个 模块 负责 把 情感 分 析 的 结果 和 用 户 画 像 的 结果 反馈 到 答案 生成 中 ， 这 样 出 现 的 问题 答案 
会 保护 针对 用 尸 个 人 特点 和 富有 情感 分 析 的 回答 。 


目 然 语言 生成 (NLG) : 是 人 工 智 能 (Al) 的 一 个 细 分 ， 旨 在 减少 机 器 和 人 类 之 间 的 沟通 差距 。 该 技术 通 单 接收 非 语言 格 
式 的 输入 ， 并 将 其 转换 为 人 类 可 理解 的 格式 。 


1) 基本 NLG: 目 然 语言 处 理 的 简化 形式 ， 融 是 允许 将 数据 转换 为 文本 (通过 类 似 Excel 的 立 数 ) 。 为 了 关联， 以 MS Word 
Mailmerge 为 例 ， 其 间 隐 填 元 了 一 些 数据 ， 这 尝 数据 是 从 另 一 个 源 (例如 MS Excel 中 的 表格 ) 中 检索 的 。 


2) 模板 化 NLG: 这 种 形式 的 NLG 使 用 模板 驱动 模式 来 显示 输出 。 以 足球 比赛 得 分 板 为 例 。 数 据 动态 地 保持 更 改 ， 并 由 预定 
义 的 业务 规则 集 (如 if/else 循 环 语句 ) 生成 。 


3) 高 级 NLG: 这 种 形式 的 目 然 语言 生成 束 像 人 类 一 样 。 它 理解 意图 ， 添 加 智能 ， 并 考虑 上 下 文 ， 最 后 将 结果 呈现 在 用 户 可 
以 轻松 阅读 和 理解 的 富有 洞察 力 的 叙述 中 。 


11.3 ”开放 领域 问答 机 器 人 的 开 友 案例 


下 面 来 简单 介绍 如 何 利用 BERT 做 文本 分 类 〈 即 用 户 意 图 识别 ) ， 以 及 如 何 利 用 BERT 源 程序 做 基于 次 语 维基 百科 语 料 的 阅读 
理解 问答 QA 问 题 (斯 坦 福 大 学 SQuAD 标 注 阅 读 理 解 问答 测试 ) 。 


SQuAD 是 由 Rajpurkar 等 人 提出 的 一 个 最 新 的 阅读 理解 数据 集 。 该 数据 集 包 含 10 万 个 (问题 、 原 文 、 管 案 ) 三 元 组 ， 原 文 
来 目 于 236 篇 维基 百科 文章 ， 而 问题 和 答案 的 构建 主要 是 通过 众 包 的 方式 ， 让 标注 人 员 提 出 最 多 ?个 基于 文章 内 容 的 问题 并 提供 
正确 答案 ， 且 答案 出 现在 原文 中 。SQUuAD 和 之 前 的 完 形 填空 类 阅读 理解 数据 集 ， 例 如 CNN/DM、CBT 等 ， 最 大 的 区 别 在 
于 ，SQuAD 中 的 答案 不 再 是 单个 实体 或 单词 ， 而 可 能 是 一 段 短 语 ， 这 使 得 其 答案 更 难 预测 。S3QuAD 包 含 公开 的 训练 集 和 开 妈 


集 ， 以 及 一 个 隐藏 的 测试 集 ， 其 采用 了 与 ImageNet 类 似 的 封闭 评测 的 方式。 研究 人 员 需 提交 算法 到 一 个 开放 平台 ， 并 由 
SQuAD 的 官方 人 员 进 行 测试 并 公布 结果 。 


模型 : 自从 SQUAD 数 据 集 公 布 以 来 ， 大 量具 有 代表 性 的 模型 纷纷 涌现 ， 极 大 地 促进 了 机 器 阅读 理解 领域 的 友 展 ， 下 面 就 对 
SQuAD 榜 单 上 具有 代表 性 的 模型 进行 介绍 。 总 体 来 说， 由 于 SQuAD 的 答案 限定 了 取 自 原文 ， 模 型 只 需要 判断 原文 中 哪些 词 是 答 
案 即 可 ， 因 此 是 一 种 抽取 式 的 QA 任务 而 不 是 生成 式 任务 。 几 乎 所 有 做 SQuAD 的 模型 都 可 以 概括 为 同一 种 框架 ， 包 括 Embed 
层 、Encode 层 、lInteraction 层 和 Answer 层 。 其 中 Embed 层 负责 将 原文 和 问题 中 的 Tokens 映 射 为 向 量 表 示 ; Encode 层 主要 使 
用 RNN 来 对 原文 和 问题 进行 编码 ， 这 样 编码 后 每 个 Token 的 向 量 束 表示 蕴含 了 上 下 文 的 语义 信息 ; Interaction 层 是 大 多 数 研 究 
工作 聚焦 的 重点 ， 该 层 主 要 负责 捕捉 问题 和 原文 之 间 的 交互 关系， 并 输出 编码 问题 语义 信息 的 原文 表示 ， 即 Query-Aware 的 原 
文 表示 ; 最 后 Answer 层 则 基于 Query-Aware 的 原文 表示 来 预测 答案 范围 ， 如 图 11-5 所 示 。 
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图 11-5 ”代表 性 的 深度 学 习 QA 系 统 框架 
BERT finetune 使 用 说 明 


1) 运行 环境 

运行 环境 : Linux 环 境 。 

GPU: GTX1080Ti。 

Python: 3.6.5, 

Tensorflow-gpu: 要 求 >1.11.0。 

2) BERT 预 训练 异型 

BERT-Large, Uncased (Whole Word Masking) : 24-layer, 1024-hidden, 16-heads, 340M parameters 


BERT-Large, Cased (Whole Word Masking) : 24-layer, 1024-hidden, 16-heads, 340M parameters 


BERT-Base, Uncased: 12-layer, 768-hidden, 12-heads, 110M parameters 
BERT-Large, Uncased: 24-layer, 1024-hidden, 16-heads, 340M parameters 
BERT-Base, Cased: 12-layer, 768-hidden, 12-heads, 110M parameters 
BERT-Large, Cased: 24-layer, 1024-hidden, 16-heads, 340M parameters 


BERT-Base, Multilingual Cased (New, recommended) : 104 languages, 12-layer, 768-hidden, 12- 
heads, 110M parameters 


BERT-Base, Multilingual Uncased (Orig, not recommended) (Not recommended, use Multilingual Cased 


instead) : 102 languages, 12-layer, 768-hidden, 12-heads, 110M parameters 
BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters 


识 明 : 前 6 个 是 英文 模型 ，Multilingual 是 多 语言 模型 ， 最 后 一 个 是 中 文 模型 (FAME) ， 论 文中 上 及 布 了 BERT-Base 和 
BERT-Large 模 型 。Uncased 表 示 文 本 在 WordPiece 标 记 化 之 前 融 已 经 全 部 转换 成 小 写字 母 ， 例 如 John Smith 变 为 john smith, 
且 删 除了 英文 中 的 重音 标记 。Cased 则 不 做 上 述 改动 。 通 常情 况 下 ， 如 果 不 是 用 在 像 命名 实体 识别 、 词 性 标注 这 些 对 英文 大 小 
写 、 重 音标 记 敏 感 的 任务 ，Uncased 的 模型 会 更 好 。 使 用 Cased 模 型 时 ， 设 置 --do lower=False 进 行 训 | 练 (或 者 在 自己 的 代码 


中 将 do lower case=False 传 到 FullTokenizer 类 里 ) 。 
每 个 zip 文 件 包含 3 个 文件 : 


TensorFlow 检 查 点 (bert model.ckpt) 包 合 预先 训练 的 权重 (实际 上 是 3 个 文件 ) 。vocab.txt 用 于 将 WordPiece 映 射 公 
word id 的 词汇 文件 。 配 置 文件 (bert_config.json) ， 指 定 模 型 的 超 参 数 。 


3) 使 用 bert 进 行 fine-tuning 


Sentence (and sentence-pair) classification tasks。 在 运行 训练 之 前 ， 将 训练 样本 和 BERT-Base checkpoint 解 压 到 不 
同 目录 下 (如 $GLUE DIR 和 $BERT BASE DIR) ， 运 行 命令 如 下 ， 并 使 用 run classifier. oymi. 


python run _classifier.py\\ 
--task_ name=MRPC\\ 
--do train=true\\ 
--do_ eval=true\\ 
—-data dir=SGLUE DIR/MRPC\\ 
--vocab file=SBERT BASE DIR/vocab.txt\\ 
--bert config file=$BERT BASE DIR/bert config.json\\ 
--init checkpoint=$BERT BASE DIR/bert model.ckpt\\ 
--max seq length=128\\ 
--train batch _size=32\\ 
--learning rate=2e-5\\ 
--num train epochs=3.0\\ 
--output dir=/tmp/mrpc_output/ 


运行 结果 : 


"el KeESULLS == ss 
eval accuracy=0.845588 
eval loss=0.505248 
global. step=343 
loss=0.505248 


使 用 run classifier.py 进 行 预测 ， 训 练 完 模型 后 ， 设 置 --do_predict=true。 在 input 文 件 夹 中 需要 有 一 个 名 为 test.tsv 的 文 
件 。 在 mrpc_output 文 件 夹 中 生成 名 为 test results.tsv 的 文件 。 行 代表 每 个 样本 的 输出 ， 列 代表 每 一 类 的 概率 。 


python run _classifier.py\\ 
--task_ name=MRPC\\ 
--do predict=true\\ 
—-data dir=SGLUE DIR/MRPC\\ 
--vocab file=SBERT BASE DIR/vocab.txt\\ 
--bert config file=SBERT BASE DIR/bert config.json\\ 
--init checkpoint=STRAINED CLASSIFIER\\ 
--max seq length=128\\ 
--output dir=/tmp/mrpc_output/ 


4) SQuAD 2.0 


首先 需要 下 载 数 据 集 到 $SQUAD _DIR 中 ， 数 据 集 包 含 以 下 3 个 文件 : train-v2.0.json, dev-v2.0.json#levaluate-v2.0.py. 


python run squad.py\\ 
--vocab file=$BERT DIR/vocab.txt\\ 
--bert config file=$BERT DIR/bert config.json\\ 
--init checkpoint=$BERT DIR/bert model.ckpt\\ 
--do train=True\\ 
--train file=SSQUAD DIR/train-v2.0.json\\ 
--do predict=True\\ _ 
-—-predict file=$SQUAD DIR/dev-v2.0.json\\ 
--train batch size=24\\ 
--learning rate=3e-5\\ 
--num train epochs=2.0\\ 
--max seq length=384\\ 
--doc stride=128\\ 
--output_dir=/tmp/SQuAD output/\\ 
--use tpu=False\\ 
--version 2 with negative=True 


接着 ， 运 行 以 下 脚本 调整 国 值 并 以 此 来 预测 空 答案 与 非 空 答案 。 


python$SQUAD DIR/evaluate-v2.0.py$SSQUAD DIR/dev-v2.0.json 
/tmp/SQuAD output/predictions.json--na-prob-file 
/tmp/SQUAD output/null_ odds.json 


运行 后 输出 文件 为 “best f1 thresh” THRESH ( 值 一 般 在 -1.0~ 5.0) 。 接 着 重新 运行 模型 以 使 用 派生 阅 值 来 生成 预测 文 
件 ， 或 者 可 以 从 nbest predictionsjson 文 件 中 提取 相应 的 答案 。 


python run_squad.py\\ 
--vocab file=SBERT DIR/vocab.txt\\ 
--bert config file=$BERT DIR/bert config.json\\ 
--init checkpoint=$BERT DIR/bert model.ckpt\\ 
--do train=False\\ 
--train file=$SQUAD DIR/train-v2.0.json\\ 
--do predict=True\\ 
--predict file=$SQUAD DIR/dev-v2.0.json\\ 
--train batch size=24\\ 
--learning rate=3e-5\\ 
--num train epochs=2.0\\ 
--max seq length=384\\ 
--doc_ stride=128\\ 
--output_dir=/tmp/SQuAD output/\\ 
--use tpu=False\\ 
—-yersion 2 with negative=True 
--null score diff threshold=STHRESH 


5) 内 存 不 足 的 问题 


本 节 中 Google 做 的 所 有 实验 都 在 云 TPU 上 进行 了 微调 ， 具 有 64GB 的 RAM。 因 此 ， 当 使 用 具有 12GB~16GB RAM 的 GPU 
时 ， 如 果 使 用 本 文中 描述 的 相同 超 参 数 ， 则 可 能 会 遇 到 内 存 不 足 问题 。 


影响 内 存 的 因素 有 (参考 表 11-2 的 参数 设置 ) : 


a.max seq length: 已 发 布 的 模型 的 max seq length 最 高 可 达 512， 读 者 可 以 使 用 较 短 的 max seq length 进 行 fine- 
tune， 以 节省 大 量 内 存 。 


b.train batch size: 内 存 使 用 量 也 与 批量 大 小 成 正比 。 
c. 模 型 类 型 ， 相 比 BERT-Base，BERT-Large 模 型 需要 的 内 存 明显 多 于 BERT-Base。 


d.Optimizer: BERT 的 默认 优化 器 是 Adam， 它 需要 大 量 额外 的 内 存 来 存储 m 和 v 同 量 。 虽 然 切 换 到 更 高 内 存 效 率 的 优化 器 
可 以 减少 内 存 使 用 量 ,， 但 也 会 影响 结果 。 


表 11-2 BERT 预 训练 参数 设置 


System Max Batch Size 
128 32 
256 16 
320 14 
384 LZ 
512 6 


BERT- Large 


Cn 
N 


128 6 
320 l 
384 0 
512 0 


用 BERT 进 行 pre-training 
1) 如 何 生成 预 训练 数据 的 格式 ? 


首先 输入 的 是 文本 文件 ， 文 本 的 每 行为 一 个 句子 ， 文 章 与 文章 之 间 用 空 行 分 割 。 输 出 文件 为 一 组 由 tf.train.Examples 序 列 化 
后 的 TFRecord 文 件 格式 。 


可 以 用 现成 的 工具 如 Spacy、nltk 等 对 句子 进行 分 句 ，create_pretraining_data.py 将 多 个 句子 拼接 到 最 大 序列 长 度 ， 从 而 
最 大 限度 地 减少 因 Padding 导 致 的 计算 资源 的 浪费 。 但 是 ， 这 可 能 需要 在 输入 数据 中 有 意 地 添加 少量 噪声 (例如 ， 随 机 截断 2% 
的 输入 段 ) ， 以 使 模型 在 对 非 句 子 输入 时 表现 得 更 加 健壮 。 


create_pretraining_data.py 将 输入 文件 中 所 有 的 Examples 和 存储 在 内 存 中 ， 因 此 对 于 大 型 数据 文件 ， 应 该 对 输入 文件 进行 分 
割 并 多 次 调用 该 脚本 。 


max_predictions_per_seq 是 masked LM 预 测 每 个 序列 的 最 大 长 度 ， 并 将 其 设置 为 nax_seq_length*masked Im_prob。 


python create pretraining data.py\\ 
--input file=./sample text.txt\\ 
--output file=/tmp/tf examples.tfrecord\\ 
--vocab file=$BERT BASE DIR/vocab.txt\\ 
--do lower case=True\\ 
--max seq length=128\\ 
--max predictions per seq=20\\ 
--masked_lm prob=0.15\\ 
--random_ seed=12345\\ 
==-dupe Lactor=3 


2) 如 何 进 行 预 训练 ? 


如 果 是 从 头 开 始 进 行 预 训 练 ， 不 需要 init_checkpoint。 模 型 配置 (Vocab Size) 中 指定 bert_config file。 此 代码 在 预 
训练 中 经 过 了 比较 少 的 步骤 (20 步 左右 ) ， 但 实际 上 可 以 设置 num train steps 为 10000 步 或 更 多 。 在 run pretraining.py 和 和 
create pretraining data.py 中 的 max seq length 和 max predictions per sedq 必 须 是 相同 的 。 


3) 注意 事项 : 


如 果 使 用 自己 的 词典 ， 一定 要 改变 在 bert_config.json 文 件 中 的 vocab_size。 如 果 使 用 了 更 大 的 词典 而 不 改变 这 个 
vocab_size， 可 能 会 由 于 越界 而 导致 在 GPU 或 TPU 训 | 练 时 获得 NaN 值 。 


如 果 训 | 练 任务 具有 特定 领域 的 语料库 ， 从 BERT Checkpoint 开 始 预 训练 效果 会 更 好 。 


论文 中 使 用 的 学 习 率 是 1e-4。 但 是 ， 如 果 你 从 现 有 BERT Checkpoint 开 始 执行 预 训练 ， 则 应 使 用 较 小 的 学 习 率 (例如 ，2e- 
5) 。 


因为 Attention 训 | 练 的 复杂 度 是 Sequence Length 的 平方 ， 所 以 较 长 的 Sequence Length 会 导 训练 价格 不 成 比例 的 剧 增 。 这 
意味 着 ， 训 练 一 批 64 个 Sequence Length 为 512 的 序列 比 一 批 256 个 Sequence Length 为 128 的 序列 要 昂贵 得 多 。 全 连接 层 和 卷 
积 层 成 本 相同 ， 但 训练 512 长 度 序列 的 Attention 成 本 要 高 得 多 。 因 此 ， 一 个 好 的 方法 是 预 训练 90000 步 ， 序 列 长 度 为 128， 然 后 
进行 10000 步 ， 序 列 长 度 为 512。 非 常 长 的 序列 主要 用 于 学 习 位 置 谋 入 ， 这 也 许 学 得 更 快 。 但 请 注意 ， 这 确实 需要 使 用 不 同 的 值 
生成 两 次 max seq length, 


如 果 读 者 是 从 头 开始 进行 预 训练 ， 计 算 成 本 会 很 高 ， 特 别 是 在 GPU 上 。 如 果 是 从 头 开始 进 行 预 训 练 ， 推 荐 的 方案 是 在 Single 
Preemptible Cloud TPU v2 上 训练 BERT-Base， 耗 时 大 约 需要 2 周 ， 费 用 约 为 500 美 元 (根据 Google 在 2018 年 10 月 的 定价 ) 。 


第 12 章 ”实战 场景 乙 三 一 一 聊天 机 器 人 


情感 聊天 机 器 人 一 般 属于 开放 和 领域。 用户 一 般 可 以 在 任何 话题 和 机 器 人 进行 互动 ， 比 如 微软 小 冰 以 及 更 早期 的 
AnswerBus， 基 于 检索 的 开放 领域 聊天 机 器 人 对 语 料 要 求 较 高 ， 其 开 友 流程 和 基于 任务 型 聊天 机 器 人 差别 不 大 ， 而 基于 深度 学 
习 的 生成 类 型 聊天 机 器 人 的 闲聊 机 器 人 在 处 理 开 上 友 领 域 有 先天 优势 。 本 章 主 要 介绍 基于 生成 模型 的 聊天 机 器 人 ， 具 体内 容 将 介绍 
怎么 构建 以 Seq2Seq 为 基础 的 闲聊 机 器 人 。Seq2Seq 模 型 即 Encoder-Decoder 模 型 ， 也 就 是 编码 -解码 模型 。 所 谓 编码 ， 就 是 将 
输入 序列 转化 成 一 个 固定 长 度 的 向 量 。 解 码 ， 束 是 将 之 前 生成 的 固定 向 量 再 转化 成 输出 序列 。Seq2Seq 模 型 在 机 器 翻译 领域 已 
有 很 成 功 的 应 用 。 下 面 将 介绍 如 何以 Seq2Seq 构 建 聊天 机 器 人 。 


12.1 Seq2seq 以 及 Attention 机 制 


原本 的 Seq2Seq 模 型 只 有 一 个 Encoder 和 一 个 Decoder， 通 常 的 做 法 是 将 一 个 输入 的 句子 编码 成 一 个 固定 大 小 的 State， 然 
后 作为 Decoder 的 初始 状态 (当然 也 可 以 作为 每 一 时 刻 的 输入 ) ， 但 这 样 的 一 个 状态 对 于 Decoder 中 的 所 有 了 时刻 都 是 一 样 的 ， 如 
图 12-1 所 示 。 


Encoder Encoder 


我 古 一 个 聊天 机 各 人 


TT 


Embedding 


你 是 于 什么 工作 的 ? 
| 


图 12-1 Encoder 和 Decoder 的 输入 和 输出 


12.2 Beam Search 


聊天 机 器 人 生成 对 话 回 答 的 过 程 是 Seq2Seq 解 码 的 过 程 ， 在 解码 成 回答 句子 的 时 候 ， 一 般 情 况 下 是 找到 生成 可 能 性 最 大 的 
和 句子。 贪心 搜 索 会 直接 选择 每 个 输出 的 最 大 概率 ， 在 Seq2Seq 模 型 中 就 是 指 每 个 字段 的 最 大 概率 ， 如 图 12-2 所 示 。 
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图 12-2 ”贪心 搜索 


Beam Search 集 束 搜索 可 认为 是 维特 比 算法 的 贪心 形式 ， 而 集束 搜索 使 用 Beam Size 参 数 来 限制 在 每 一 步 保留 下 来 的 可 能 
性 词 的 数量 。 集 束 搜索 是 在 测试 阶段 为 了 获得 更 好 的 准确 性 而 采取 的 一 种 策略 。 


针对 上 面 的 回答 “我 是 聊天 机 器 人 ”， 如 果 把 Beam Size 定 义 为 2 的 话 ， 我 们 在 第 一 次 的 输出 时 ， 残 会 选取 概率 最 大 
的 “我 ”和 “是 ”两 个 单词 ， 而 不 是 只 挑选 一 个 概率 最 大 的 单词 ， 如 图 12-3 所 示 。 
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图 12-3 Beam Search RR A 
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那么 此 时 由 于 Beam Size 为 2， 也 丈 是 我 们 只 能 保留 概率 最 大 的 两 个 序列 ， 此 时 计算 出 所 有 的 序列 概率 ， 可 以 很 容易 地 得 出 
两 个 最 大 概率 的 序列 为 “我 是 ”和 “是 聊天 ”， 然 后 后 面 会 不 断 重 复 这 个 过 程 ， 直 到 遇 到 结束 符 为 止 。 


12.3 ”基于 Seq2Seq 的 聊天 机 器 人 开发 流程 


我 们 将 基于 TensorFlow 深 度 学 习 框 架 ， 介 绍 以 Seq2Seq 为 基础 的 聊天 机 器 人 的 开发 流程 。 


12.3.1 语 料 准备 


首先 是 语 料 准 备 ， 先 准备 基于 开放 域 聊 天 语 料 进 行 模 型 训练 。 在 我 们 的 聊天 语 料 中 ， 奇 数 行 是 问题 ， 仿 数 行 对 应 的 回答 。 
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的 通顺 。 然 后 我 们 通过 对 所 有 的 聊天 语 料 进行 预 处 理 ， 进 行 字 典 统计 。 
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根据 统计 的 词 频 和 字典 ， 我 们 为 聊天 语 料 建立 Token Id， 比 如 “ 聊 点 什么 好 呢 ” 这 人 句 话 ， 根 据 每 个 词 在 词组 中 的 位 置 


[“ 聊 ”: 0, “Raw 21, “Hani: 2，“ 好 ”: 3, "We" :4] 可 以 表征 为 [0, 1, 2, 3, 4] 。 


(data path, target_path, vocabulary_path, 
tokenizer=None, normalize_digits=True): 
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if not gfile.Exists(target path): 
print( Tokenizing data in %s Ķ data_path) 
vocab, _ = initialize _vocabulary(vocabulary_path) 
with gfile. GFile(data_ path, mode="rb’) as data file: 
with gfile.GFile(target_path, mode="w") as tokens_file: 
counter = 0 
for line in data file: 


counter += 
if counter % 100000 == 0: 
print(” tokenizing line %d" % counter) 
token_ids = sentence_to_token_ids(tf. compat. as_bytes(line), vocab, 
tokenizer, normalize digits) 
tokens_file. . join([str (tok) for tok in token_ids]) + "\n") 


根据 Seq2Seq 的 结构 ， 需 要 首先 定义 Cell， 选 择 GRU 或 者 LSTM 的 Cell， 并 确定 Size。 然 后 利用 Tensorflow 中 
tf Seq2Seq.embedding attention Seq2Seq 这 个 函数 来 构架 Encoder 和 Decoder 模 型 ， 在 训练 模式 下 ，Decoder 的 输入 是 真 
实 的 Target 序 列 。 


def Singjle OF 
return tf. contrib. rnn. GRUCel1 (size) 
if use lstm: 
def single cell(): 
return tf. contrib. rnn. BasicLSTWCe 
cell = single cell () 
if num_layers > 1: 
cell = tf. contrib. rnn. MultiRNNCell ([sin LQ _ in range (num_layers) ]) 


def seq2seq flencoder_inputs, decoder_inputs, feed previous): 
return tf_seq2seq. embedding attention_seq2seq ( 

encoder_inputs 
decoder_inputs 
cell, 
num _encoder_sy 
num_decoder _Sy 
embeddi ng _size= 
output_projecti utput_ projection, 
feed ieacRigauetcal ravine: 
dtype=dtype) 


_inputs 
Ed 
S target weights 
for i in xrange (buckets [-1][0]): 
self. encoder_inputs. append (tf. placeholder (tf. int32, shape=[ 
name= encocer 


for i in xrange(buckets[-1][1] + 1): 
self. decoder_inputs. append (tf. placeholder (tf. int32, shape=[ 
name= decoder . 
elf. target_weights. append(tf. placeholder (dtype, shape=[ 


name=" 


targets [self. decoder_inputs[i + 1] 
for i in er pe decoder_inputs) - 1)! 


if forward only: 
self. outputs, self. losses, self. encoder_state = tf_seq2seq. model with_buckets( 
self. encoder inputs, self. decoder_inputs, targets, 
self. target_weights, buckets, lambda x, y: seq2seq f(x. y. True), 
softmax_loss_function=softmax_loss_function) 


if output_projection is not None: 
for b in xrange(len(buckets)): 
self. outputs[b] = | 
Ef: matmul (output, output_projection[0]) + output_projection([1! 
for output in self. outputs[b] 


else: 
self. outputs, self. losses, self. encoder state = tf_seq2seq. model with_buckets( 
self. encoder_inputs, self. decoder_inputs, targets, 
self. target_weights, buckets, 
lambda x, y: seq2seq_f(x, y, False), 
softmax_loss_function=softmax_loss_function) 


12.3.3 “模型 训 属 


对 于 训练 阶段 ， 首 先 定 义 Encoder 和 Decoder 的 网 络 结构 (12.3.2 节 ) ， 然 后 对 输入 进行 预 处 理 (12.3.1 节 ) ， 最 后 通过 


Get Batch 将 数据 分 成 多 个 Batch， 并 利用 yession 进 行 训练 。 此 外 每 次 通过 对 模型 生成 语句 的 困惑 度 进行 计算 ， 来 评 


估 生 成 回答 语句 是 否 通顺 。 


def 


seq2seq_model_utils.create_model (se 


_bucket_sizes[:i + 1] 


in xrange(len(train_bucket_ 


random_ number_ 01 = np. random. random sampl 
; n (trai n_buckets_ 


= min({i for i in xrange(len 
if train_buckets_scal > random_nu 


_per_checkpoint 


< 300 else float( 
del. learning_rate. eval | time, perplexity. datetime. now())) 


max | (prev 
ps 


bS 
4 
A 


g] _step) 


tep=model. global 


12.3.4 模型 预测 和 Beam Search 模 块 


过 对 Beam Size 的 控制 可 以 保证 输出 语句 的 多 


需要 利用 Beam Search 来 寻找 最 优 解 。 通 
过 Reinforcement Learning 不 断 优 化 模 


在 预测 模块 ， 对 应 生成 对 话 ， 我 们 有 
行 及 时 的 人 工 反 馈 ba, 


样 性 。 此 外 我 们 也 可 以 加 入 强化 学 习 ， 对 于 不 同 的 机 器 人 回答 进 


beams, new_beams, 


dummy_encoder_input 


1_step(dummy_encoder_inputs., 
= all prob ts - args.antilm * all_prob_t 


.0) *len (all_prob_ts) 


all prob ts 


ds(dptr]] + 0.01 


if return_raw: return all prob, 


i, k in enumerate(cand[' 


try: 
if (len(mew_beams) < args. beam_size): 
heapq. heappush(new_beams, new_cand) 
elif (new cand[0] > new beams[0][0]): 
heapq. heapreplace (new beams, new cand) 
except Exception e: 
print(” ror), @) 
print(” ", new_beams) 
print (" ", new_cand) 


124 ”本 童 小 结 


本 章 主要 讲解 了 基于 Seq2Seq 的 开放 域 生成 型 聊天 机 器 人 的 设计 和 开 友 流程 ， 为 了 保证 答案 的 多 样 性 ， 并 将 Beam Search 
应 用 到 机 器 人 回答 响应 中 。 以 Seq2Seq 为 基础 的 聊天 机 器 人 可 以 广泛 应 用 到 开放 聊天 机 器 人 领域 ， 而 通过 Beam Search 可 以 提 
高 机 器 人 的 响应 速度 ， 并 且 保 证 聊天 回答 的 多 样 性 。 


